seiang
(Seiang)
1
【TiDB 使用环境】生产环境 /测试/ Poc
【TiDB 版本】v5.0.3
【问题复现路径】
【遇到的问题:问题现象及影响】
TiDB集群版本从v5.0.3在线升级到v7.5.5,在PD节点升级的过程中出现,所有PD节点都不可用的情况,导致集群整体异常,无法正常读写;持续8min左右之后,PD节点自动恢复正常,集群恢复可用状态
升级异常的时间范围:2025-06-12 09:47~2025-06-12 09:55左右
三个节点的PD日志如下:
pd104.log (52.5 KB)
pd105.log (52.3 MB)
pd106.log (24.0 MB)
社区的各位大佬帮忙分析一下具体的原因;之前升级过很多次,他第一次遇到PD不用的情况
CC噶勒鸡
(Ti D Ber 0 I Fh E Gc Y)
2
[2025/06/12 09:47:31.252 +08:00] [INFO] [server.go:1609] [“pd leader has changed, try to re-campaign a pd leader”]
[2025/06/12 09:47:31.254 +08:00] [INFO] [server.go:1672] [“campaign PD leader ok”] [campaign-leader-name=pd-10.30.128.106-2379]
106看起来从47开始选举为leader,但是看起来后期日志还有一些问题:
[2025/06/12 09:47:41.485 +08:00] [ERROR] [middleware.go:156] [“redirect but server is not leader”] [from=pd-10.30.128.104-2379] [server=pd-10.30.128.106-2379] [error=“[PD:apiutil:ErrRedirect]redirect failed”]
直到9:55开始才read to serve ,
[2025/06/12 09:55:32.094 +08:00] [INFO] [server.go:1746] [“PD leader is ready to serve”] [leader-name=pd-10.30.128.106-2379]

1 个赞
Mwkk
(Ti D Ber A Cla Yr Lb)
4
105 106 系统时间感觉有差,检查一下 ntp 服务吧。105 的 pd
[2025/06/12 09:47:30.979 +08:00] [INFO] [server.go:1296] ["etcd leader changed, resigns pd leadership"] [old-pd-leader-name=pd-10.30.128.105-2379].
这个时间点就发起选举了。在选新的 pd leader ,106 的 pd 去竞选 leader的时候发现系统时间错误 未自举成功,
[2025/06/12 09:47:31.255 +08:00] [WARN] [tso.go:200] ["system time may be incorrect"] [] [last=2025/06/12 09:47:33.842 +08:00] [last-saved=0001/01/01 00:00:00.000 +00:00] [next=2025/06/12 09:47:31.255 +08:00] [error="[PD:common:ErrIncorrectSystemTime]incorrect system time"]
[2025/06/12 09:47:31.257 +08:00] [INFO] [tso.go:220] ["sync and save timestamp"] [] [last=2025/06/12 09:47:33.842 +08:00] [last-saved=0001/01/01 00:00:00.000 +00:00] [save=2025/06/12 09:47:36.843 +08:00] [next=2025/06/12 09:47:33.843 +08:00]
[2025/06/12 09:47:31.258 +08:00] [INFO] [server.go:1818] ["server enable region storage"]
[2025/06/12 09:47:31.259 +08:00] [INFO] [server.go:1712] ["triggering the leader callback functions"]
后面就一直想作为 follower 加入集群,一直失败,后面 105 重启之后,106被选举成 leader 节点,整体恢复。检查一下3台服务器的系统时间看看
1 个赞
seiang
(Seiang)
5
ntp服务一直正常运行的,我如何确定在PD异常的时间范围内,三台PD节点之间系统时间有差,这块有具体的监控吗
Mwkk
(Ti D Ber A Cla Yr Lb)
6
没有,得看自己主机单独的sa监控有没有这一项了。因为之前升级的时候遇到过 ntp 服务失效,导致时间不正确,选举不成功 pd 一直没法成功切换的情况。后面升级之前都会把 pd 服务器 ntp 服务重启一下 ,检查一下状态,再升级,没遇到 pd 因为时间差距导致选举失败的情况了。
1 个赞
CC噶勒鸡
(Ti D Ber 0 I Fh E Gc Y)
7
system
(system)
关闭
10
此话题已在最后回复的 7 天后被自动关闭。不再允许新回复。