pd集群节点切换,引起follower同步异常

【 TiDB 使用环境】

【概述】pd集群节点切换后,发生we haven’t synced timestamp ok, wait and retry"

【背景】目前集群是3个节点,2个节点正常,重启过这个异常节点,更新过ntpd时间,依然无效



这个目前为follower节点频繁报这个日志
重启这个节点后:LEADER的日志:
[2021/07/17 23:08:52.942 +08:00] [ERROR] [server.go:229] [“region syncer send data meet error”] [error=“rpc error: code = Canceled desc = context canceled”]
[2021/07/17 23:14:22.159 +08:00] [ERROR] [server.go:229] [“region syncer send data meet error”] [error=“rpc error: code = Canceled desc = context canceled”]
[2021/07/17 23:23:35.263 +08:00] [ERROR] [server.go:229] [“region syncer send data meet error”] [error=“rpc error: code = Canceled desc = context canceled”]
[2021/07/17 23:36:56.497 +08:00] [ERROR] [server.go:229] [“region syncer send data meet error”] [error=“rpc error: code = Canceled desc = context canceled”]

1赞

问一下,现在情况如何了,这个所有的 节点,时间一致吗(日志应该会有相关信息)

时间是一致的,还是有问题

1、发生问题的 pd 报什么错?最好给一下 leader 及 这个 pd 的日志

发生问题的PD日志就是上面的截图,leader异常日志 就是后面文本

现在的 leader 日志和 pd 的 日志,发我一下日志文件吧(ip 你可以脱敏),你现在的信息都是指向时间不同步(但你说时间是ok 的,我只能看看其他信息)

集群日志都是info,我们把异常节点下了,避免掉坑

下线了,有没有再扩容进去,不要pd 集群,只有2个节点,出现异常后,维护动作较大

嗯,用其他机器扩回去的 ,这次主要操作是:原本这个PD集群是5节点,通过上线下线把原来和TIDB一起混合部署的拆分出去,当时下了2个节点后,集群更新配置文件,进行LEADER转移,又添加了一个节点,然后就报这个问题。目前下线后集群正常。

好的,后续我们看看能不能模拟一下

嗯 目前服务器时间用的是ntpd服务,经常会超前或落后,不知道你们那有什么解决的办法,目前我这是通过监控触发告警处理的

一般都是常用的类似服务,各个节点的之间的时间差,不要超过几分钟就:ok_hand:(当然无差异更好)

好的 ,感谢,之前掉过坑

:hugs::hugs::smile::smile: