生产环境升级版本后，PD节点一直感觉有问题：[pd] failed to update service mode

SummerGu · 2024 年1 月 19 日 07:24

【 TiDB 使用环境】生产环境
【 TiDB 版本】7.5.0
生产环境升级版本后，PD节点一直感觉有问题，比如报错日志显示：
1、[pd] failed to update service mode
2、loadStore from PD failed

tidb_192.168.12.37_4000.log (15.8 KB)
tikv_192.168.12.38_20160.log (125.2 KB)

请问大神有什么建议吗？

Fly-bird · 2024 年1 月 19 日 07:48

升级的时候是用root升级的嘛
看看集群状态，各节点之间的网络

dba远航 · 2024 年1 月 21 日 06:46

“fail to load safepoint from pd”] [error=“context deadline exceeded” 这才是关键

Jellybean · 2024 年1 月 21 日 08:52

目前集群访问是否正常，监控如何

江湖故人 · 2024 年1 月 21 日 12:18

如果集群没发现其他异常，可以试下PD Recover重建

SummerGu · 2024 年1 月 22 日 03:09

Jellybean · 2024 年1 月 23 日 14:58

“fail to load safepoint from pd”
“[pd] failed to update member”
Error while dialing: dial tcp 192.168.12.37:2379: i/o timeout
rpc error: code = Unavailable desc = connection error
urls="[http://192.168.12.37:2379,http://192.168.12.39:2379

这些错误信息都表明集群的pd节点出现了异常，无法访问，应该是pd节点挂了。
需要进一步进程pd的状态，同时查看pd节点的日志排查原因。

有猫万事足 · 2024 年1 月 23 日 15:07

你感觉pd有问题，但提供的日志是tikv和tidb的。
从提供的日志看。pd的地址是http://192.168.12.37:2379。
大概率是个pd,tidb,tikv混布在一台的情况。

这个时候是需要根据混合部署的文档，调整一些参数的，做好资源隔离，不然很容易相互影响。
https://docs.pingcap.com/zh/tidb/stable/hybrid-deployment-topology#混合部署的关键参数介绍

EDG-给我冲 · 2024 年12 月 18 日 08:41

兄弟，我们情况也和你这类似。麻烦问下。后面你是怎么处理的。

懒云一笑 · 2024 年12 月 18 日 08:56

分开部署，出了问题，也好排查

The-Fallen-Angel · 2024 年12 月 18 日 10:26

PD挂了。截图也没看见更详细资源情况。

residentevil · 2024 年12 月 20 日 05:20

用pd工具做下raft切换，然后在检查下集群拓扑状态

dfzxc · 2025 年1 月 5 日 04:21

似乎没看到PD相关的报错信息呀

生产环境升级版本后，PD节点一直感觉有问题 ：[pd] failed to update service mode

生产环境升级版本后，PD节点一直感觉有问题：[pd] failed to update service mode