pd leader自动发生切换

【 TiDB 使用环境】生产环境 /测试/ Poc
【 TiDB 版本】v5.3.0
【复现路径】做过哪些操作出现的问题
【遇到的问题:问题现象及影响】pd保活lease失败,pd leader发生切换
【资源配置】进入到 TiDB Dashboard -集群信息 (Cluster Info) -主机(Hosts) 截图此页面
【复制黏贴 ERROR 报错的日志】
【其他附件:截图/日志/监控】
[2025/01/17 02:54:26.018 +08:00] [WARN] [lease.go:139] [“lease keep alive failed”] [purpose=“pd leader election”] [error=“context deadline exceeded”]

求助:pd负载比较高,cpu使用率达到85%,偶现lease保活失败导致pd切主。想把lease参数从3秒调整到6秒,请问对问题有帮助吗

:thinking:CPU怎么那么高?是混合部署么?

  • 有一定帮助:通过增加 lease 时间,可以减少 PD leader 切换的频率,特别是在 PD 节点负载较高时,可能有效减少因高负载导致的超时问题。
  • 不是根本解决方案:增加 lease 时间可能减缓问题,但如果 PD 节点负载始终过高,问题依然会出现。最根本的解决方案还是要优化 PD 的性能,减少其负载。

不是混合部署,客户端数量多,pd请求量大。

将lease 参数从3秒调整到6秒可以在一定程度上减少因短期高负载导致的切换,但是还是要找到并解决导致 PD 高负载的根本原因以便于有效提升 PD 的性能和稳定性,从而减少 lease 保活失败的发生