tidb4.0 关闭其中一个PD节点PD集群变为不可用

haoshuaili · 2020 年6 月 6 日 03:44

部署完毕后的集群状态

关闭其中一台pd机器10.252.130.30

pd报错日志如下
pd.log (256.1 KB)

GangShen · 2020 年6 月 6 日 04:40

请问关闭 10.252.130.30 机器是直接关闭了服务器吗？

麻烦提供一下 10.252.130.43 机器的 PD 节点日志，因为故障前这个 pd 节点是 leader 节点
麻烦检查一下 10.252.130.4 和 10.252.130.43 机器上 PD 进程是否存在，如果进程存在，可以使用 pd-ctl 执行 member 查看一下信息

haoshuaili · 2020 年6 月 7 日 01:52

故障是在模拟服务器down机的情况下产生直接把10.252.130.30这台服务器关闭了

pd进程是存在的

10.252.130.30日志如下
10.252.130.30pd.zip (2.6 MB)

tidbdashbord显示 pd节点情况为未知

pdctl返回信息如下
pt-ctl返回信息.txt (3.8 KB)

yilong · 2020 年6 月 7 日 11:15

haoshuaili · 2020 年6 月 7 日 14:38

可以正常插入数据，看上去是tiup显示不正常。13043pd.zip (4.1 MB)
之前的leader节点是10.252.130.43并未发生变化。我这里模拟下关闭leader节点时的情况。

haoshuaili · 2020 年6 月 7 日 15:26

又测试了几次发现,tiup显示不正常，但是pd工作应该是不受影响的，只是如果挂掉的节点正好是

带有UI的这个节点那么 tidb 的dashboard也将无法访问。似乎通过其他pd节点访问tidbdashboard也会跳转到tag为ui的那个pd节点。

yilong · 2020 年6 月 8 日 01:03

查看 pd 日志有报错 dropped internal Raft message since sending buffer is full (overloaded network) ，我们先查下，多谢。

nolouch-PingCAP · 2020 年6 月 8 日 03:53

dropped internal Raft message since sending buffer is full

这个错误一般是网络问题导致消息无法发出去而造成的堆积，可以检查一下 PD 之间的网络环境。日志中这个消息都是发往 [remote-peer-id=2056ebc4dd0beae0] 的，如果这个是 down 掉的 PD 那这个日志就是符合预期的。

lucklove · 2020 年6 月 8 日 04:01

你好，麻烦在中控机（tiup 所在机器) 执行以下命令：

time curl 10.252.130.30:2379/pd/health
time curl 10.252.130.4:2379/pd/health
time curl 10.252.130.43:2379/pd/health

haoshuaili · 2020 年6 月 8 日 14:16

你好，PD那台设备是模拟关机。只是目前在其中一个pd down掉的情况下 tiup显示看上去不准确。

yilong · 2020 年6 月 9 日 03:39

麻烦反馈下这些信息，多谢

curl 10.252.130.30:2379/pd/health

curl 10.252.130.4:2379/pd/health

curl 10.252.130.43:2379/pd/health