为提高效率,请提供以下信息,问题描述清晰能够更快得到解决:
【TiDB 版本】
v4.0.10
【问题描述】
一个集群,将一个pd使用kill -SIGSTOP模拟僵尸进程后,一直在跑sysbench,过了10分钟后,集群的pd组件全部down掉
pd主节点日志一直重复着这些告警:
按照道理来说,两个pd不是应该可以使用的嘛?看日志好像是无法选主pd.log (6.2 MB)
若提问为性能优化、故障排查类问题,请下载脚本运行。终端输出的打印结果,请务必全选并复制粘贴上传。
为提高效率,请提供以下信息,问题描述清晰能够更快得到解决:
【TiDB 版本】
v4.0.10
【问题描述】
一个集群,将一个pd使用kill -SIGSTOP模拟僵尸进程后,一直在跑sysbench,过了10分钟后,集群的pd组件全部down掉
若提问为性能优化、故障排查类问题,请下载脚本运行。终端输出的打印结果,请务必全选并复制粘贴上传。
1、kill -SIGSTOP 模拟僵尸进程,具体是对哪一个 pd server 进行操作的,请提供下对应的 ip:port 信息
2、将 3 个 pd server 的 log 都提供下,时间段为:kill -SIGSTOP 操作的前一小时以及后一小时
3、请提供下 kill -SIGSTOP 操作发生的准确的时间点
僵死的pd-server,我们僵死过两回,
梳理下现在的问题,从上面你那里提供的信息来看,是两个问题:
1、pd 使用 kill -SIGSTOP 模拟僵尸进程后,pd 全部出现异常,且在存活两个 pd server 的情况下,无法选举出新的 pd leader
2、下面你提供的两个 pd server 状态为 down,但是 pd 的 leader 是正常的,这个问题的点是这个 pd server 为什么会 down 吗?
嗯,是的
两个pd-server应该也是可以选出leader的,但是看日志好像是无法选出leader了,然后两个本来好的pd也down了?
先看下这个问题吧,你那边进行模拟测试的时间点具体是几点?
19:07的时候有过一次模拟
好的,收到,这个模拟的 pd server 的 ip:port 是怎样的 ?
端口2479,ip:192.168.0.14
收到,这边先看一下,有进展会跟帖回复~
梳理下信息:
1、192.168.0.14
1)19:06 左右有一个重启操作
[2021/05/24 19:05:16.281 +08:00] [WARN] [http.go:444] ["failed to find remote peer in cluster"] [local-member-id=d8f12fcb851b7553] [remote-peer-id-stream-handler=d8f12fcb851b7553] [remote-peer-id-from=4699269f09be4e7f] [cluster-id=a9078dd29b605833]
[2021/05/24 19:05:16.287 +08:00] [INFO] [etcd.go:555] ["stopping serving peer traffic"] [address="[::]:2480"]
[2021/05/24 19:05:16.287 +08:00] [INFO] [etcd.go:562] ["stopped serving peer traffic"] [address="[::]:2480"]
[2021/05/24 19:05:16.287 +08:00] [INFO] [etcd.go:364] ["closed etcd server"] [name=pd-192.168.0.14-2479] [data-dir=/apps/he3dbdata/pd-2479] [advertise-peer-urls="[http://192.168.0.14:2480]"] [advertise-client-urls="[http://192.168.0.14:2479]"]
[2021/05/24 19:05:16.287 +08:00] [INFO] [manager.go:73] ["exit dashboard loop"]
[2021/05/24 19:05:16.287 +08:00] [INFO] [server.go:440] ["close server"]
[2021/05/24 19:06:11.992 +08:00] [INFO] [util.go:42] ["Welcome to Placement Driver (PD)"]
[2021/05/24 19:06:11.992 +08:00] [INFO] [util.go:43] [PD] [release-version=v4.0.10]
[2021/05/24 19:06:11.992 +08:00] [INFO] [util.go:44] [PD] [edition=Community]
2)在 19:07 分左右进行了 kill -SIGSTOP 模拟,并且在模拟该操作时,该 PD Server 是 follower 角色
2、确认下 PD Server 的启动时间,这 3 个 PD Server 的启动都是手动触发的吗?
[2021/05/24 19:39:41.318 +08:00] [INFO] [manager.go:73] ["exit dashboard loop"]
[2021/05/24 19:39:41.318 +08:00] [INFO] [server.go:440] ["close server"]
[2021/05/24 19:40:01.621 +08:00] [INFO] [util.go:42] ["Welcome to Placement Driver (PD)"]
[2021/05/24 19:40:01.621 +08:00] [INFO] [util.go:43] [PD] [release-version=v4.0.10]
[2021/05/24 19:40:01.621 +08:00] [INFO] [util.go:44] [PD] [edition=Community]
[2021/05/24 19:11:40.752 +08:00] [WARN] [etcdutil.go:112] ["kv gets too slow"] [request-key=/pd/6963927065619875722/config] [cost=1.444778505s] []
[2021/05/24 19:38:42.773 +08:00] [INFO] [util.go:42] ["Welcome to Placement Driver (PD)"]
[2021/05/24 19:38:42.774 +08:00] [INFO] [util.go:43] [PD] [release-version=v4.0.10]
[2021/05/24 19:38:42.774 +08:00] [INFO] [util.go:44] [PD] [edition=Community]
[2021/05/24 19:39:52.862 +08:00] [INFO] [etcd.go:364] ["closed etcd server"] [name=pd-192.168.0.3-2479] [data-dir=/apps/he3dbdata/pd-2479] [advertise-peer-urls="[http://192.168.0.3:2480]"] [advertise-client-urls="[http://192.168.0.3:2479]"]
[2021/05/24 19:39:52.863 +08:00] [INFO] [manager.go:73] ["exit dashboard loop"]
[2021/05/24 19:39:52.863 +08:00] [INFO] [server.go:440] ["close server"]
[2021/05/24 19:40:01.672 +08:00] [INFO] [util.go:42] ["Welcome to Placement Driver (PD)"]
[2021/05/24 19:40:01.672 +08:00] [INFO] [util.go:43] [PD] [release-version=v4.0.10]
[2021/05/24 19:40:01.672 +08:00] [INFO] [util.go:44] [PD] [edition=Community]
[2021/05/24 19:40:01.672 +08:00] [INFO] [util.go:45] [PD] [git-hash=560df52710293d9d67bd7b32503de0e53addfa11]
[2021/05/24 19:40:01.672 +08:00] [INFO] [util.go:46] [PD] [git-branch=heads/refs/tags/v4.0.10]
[2021/05/24 19:40:01.672 +08:00] [INFO] [util.go:47] [PD] [utc-build-time="2021-01-15 02:55:27"]
[2021/05/24 19:40:01.672 +08:00] [INFO] [metricutil.go:81] ["disable Prometheus push client"]
是的,后来把僵死程序kill掉后,然后手动起来了
收到,这个 display 的结果是在 192.168.0.3、192.168.0.14、192.168.0.7 在 2021/05/24 19:40 左右重启前看到的结果吗?
另外,请将 24 号 18:00 ~ 19:30 的 tidb,pd 的 grafana 的监控,以及 192.168.0.7 的 node-exporter 监控导出下 ~