scheduler会消失

  • 【TiDB 版本】:v4.0.0-rc
  • 【问题描述】:scheduler会消失
    早上发现集群有个节点延迟很高,查了下是region是其他节点的两倍.然后看了 下scheduler,发现没有了.就手动加了2个均衡调度器,之前也发生过这种情况.

如图有段时间是没有任何scheduler的.

你好,

目前还没有相关机制会清空某个 pd 节点的调度。所以请提供以下信息,帮助排查

  1. 请提供下故障 pd 节点的 pd.log 文件,
  2. 烦请将集群拓扑或者 yaml 文件上传下。
  3. 麻烦上传下region 、 leader 图和 scheduler 图,请将时间线拉长至上次添加时间~

meta.yaml (3.2 KB)

你好

pd 的日志麻烦也上传下,并说明下监控中调度丢失的时间点。

pd-ERROR.log (395.8 KB)

从 PD log 最后的监控日志看,可能是系统时间服务异常,导致异常。建议确认 PD 和 整个集群的时间服务是否是同步,有没有明显的时间差

[2020/05/15 02:40:43.781 +08:00] [ERROR] [tso.go:126] [“system time may be incorrect”] [last=2020/05/15 02:40:45.858 +08:00] [next=2020/05/15 02:40:43.781 +08:00] [2020/05/15 02:40:43.911 +08:00] [ERROR] [tso.go:275] [“we haven’t synced timestamp ok, wait and retry”] [retry-count=2] [2020/05/15 02:40:43.921 +08:00] [ERROR] [tso.go:275] [“we haven’t synced timestamp ok, wait and retry”] [retry-count=1] [2020/05/15 02:40:43.950 +08:00] [ERROR] [tso.go:275] [“we haven’t synced timestamp ok, wait and retry”] [retry-count=2] [2020/05/15 02:42:38.021 +08:00] [ERROR] [tso.go:275] [“we haven’t synced timestamp ok, wait and retry”] [retry-count=0] [2020/05/15 02:42:38.122 +08:00] [ERROR] [tso.go:126] [“system time may be incorrect”] [last=2020/05/15 02:42:39.867 +08:00] [next=2020/05/15 02:42:38.122 +08:00] [2020/05/15 02:42:38.152 +08:00] [ERROR] [server.go:242] [“region syncer send data meet error”] [error=“rpc error: code = Canceled desc = context canceled”] [2020/05/15 02:42:38.152 +08:00] [ERROR] [server.go:242] [“region syncer send data meet error”] [error=“rpc error: code = Canceled desc = context canceled”]

恩,我猜测也是,手动同步下时间之后的就好了。tiup部署有参数可以调整ntp的服务器么,我想换成亚洲的服务器。

请问是指所有的 tidb 集群都使用了同一台 外部 ntp 服务器吗? 需要修改哪些服务器? 只调整外部 ntp 时间为亚洲时间?

恩,使用外部服务器。

  1. 抱歉,我这边暂时没有找到类似案例,您是否有测试环境,麻烦在测试环境先测试一下,
  2. 理论上来看,如果能够保证同时修改,应该没有问题,多谢。