pd-server 故障,集群不可访问

【 TiDB 使用环境】生产环境
【 TiDB 版本】V6.5.9
【复现路径】无操作
【遇到的问题:问题现象及影响】21:10:08 左右,发现tiup 出来的所有的pd-server 都是down状态,整个集群数据无法访问
【资源配置】
【附件:截图/日志/监控】
1, tiup 出来,所有的pd-server 都是down 状态


2,部分pd-server updatetime 在监控上出现跳变。

在21:30 左右,手动进行了重启

3,10.0.2.86 pd-server 出现大量的如下日志:


4,PD-SERVER 中,有 leader is overloaded 日志

5,发现在出问题前短暂时刻,有tikv 上的leader 被逐步全部切走

跪求大佬,帮忙分析下这个问题的原因

PD 5个节点实例一起挂掉了?

这个比较少见,,看看日志吧,看看是什么导致的

从updatime 和日志中观察,pd-server 并没有挂掉,当时进程还存在,只是tiup 出来,发现pd-server 是 down的状态

uptime都能跌0,再跳回去。就说明pd没挂,但是因为什么原因连不上了。uptime这个监控数据都收不到了。

重点查查网络。

5台pd同时出问题。感觉可以排除资源问题,pd挂掉影响leader选举。也是感觉网络的问题比较大。有网络监控的话,查下。或者查下pd所在服务器message日志等。

在 /var/log/messages 中找到一些与网络相关的条目,例如:

网络接口状态变化:当网络接口启动、停止或状态发生变化时,可能会记录相关信息。
DHCP 客户端活动:如果您的系统使用 DHCP 获取 IP 地址,DHCP 客户端(如 dhclient)的日志信息也会出现在这里。
路由更改:某些路由表的变化也可能被记录下来。
网络服务错误:运行在网络层的服务(如 SSH、HTTP 等)遇到的问题有时会在此处记录

1、PD server网络层是否有异常【看丢包:tcp_trans, ping延迟】
2、PD server的服务器是否有异常【看下/var/log/message, 网络带宽】