生产环境升级版本后,PD节点一直感觉有问题 :[pd] failed to update service mode

【 TiDB 使用环境】生产环境
【 TiDB 版本】7.5.0
生产环境升级版本后,PD节点一直感觉有问题,比如报错日志显示:
1、[pd] failed to update service mode
2、loadStore from PD failed

tidb_192.168.12.37_4000.log (15.8 KB)
tikv_192.168.12.38_20160.log (125.2 KB)

请问大神有什么建议吗?

升级的时候是用root升级的嘛
看看集群状态,各节点之间的网络

“fail to load safepoint from pd”] [error=“context deadline exceeded” 这才是关键

目前集群访问是否正常,监控如何

如果集群没发现其他异常,可以试下PD Recover重建


“fail to load safepoint from pd”
“[pd] failed to update member”
Error while dialing: dial tcp 192.168.12.37:2379: i/o timeout
rpc error: code = Unavailable desc = connection error
urls="[http://192.168.12.37:2379,http://192.168.12.39:2379

这些错误信息都表明集群的pd节点出现了异常,无法访问,应该是pd节点挂了。
需要进一步进程pd的状态,同时查看pd节点的日志排查原因。

你感觉pd有问题,但提供的日志是tikv和tidb的。
从提供的日志看。pd的地址是http://192.168.12.37:2379
大概率是个pd,tidb,tikv混布在一台的情况。

这个时候是需要根据混合部署的文档,调整一些参数的,做好资源隔离,不然很容易相互影响。
https://docs.pingcap.com/zh/tidb/stable/hybrid-deployment-topology#混合部署的关键参数介绍

1 个赞

兄弟,我们情况也和你这类似。麻烦问下。后面你是怎么处理的。

分开部署,出了问题,也好排查

PD挂了。 截图也没看见更详细资源情况。

用pd工具做下raft切换,然后在检查下集群拓扑状态