pd集群重搭后经常 pd server out

kuuhaku · 2022 年11 月 15 日 08:27

kuuhaku · 2022 年11 月 15 日 08:46

上面我截图里面 tikv.backoff.pdRPC 延迟很高这个有啥处理方法没有

h5n1 · 2022 年11 月 15 日 08:58

貌似tikv和pd的通信问题，看看tikv压力大吗

kuuhaku · 2022 年11 月 15 日 09:04

这些监控截图能体现压力大不

kuuhaku · 2022 年11 月 15 日 09:07

pd.log.zip (1.0 MB)

h5n1 · 2022 年11 月 15 日 09:09

看下tikv-detail 那个监控页面先主要看下thread cpu ,flow control ，raft propose,rockdb kv。另外看下exporter监控中tikv的情况

kuuhaku · 2022 年11 月 15 日 09:18

kuuhaku · 2022 年11 月 15 日 09:19

kuuhaku · 2022 年11 月 15 日 09:21

h5n1 · 2022 年11 月 15 日 09:34

上面这些看着都没问题，tikv到pd的网络情况呢

kuuhaku · 2022 年11 月 15 日 09:37

也是正常

kuuhaku · 2022 年11 月 15 日 09:38

之前pd 集群重搭后就出现这样的报错，但是一直想不出来哪里出现问题 region？

h5n1 · 2022 年11 月 15 日 09:43

前面node exporter 中pd leader datadir的磁盘性能怎么样

kuuhaku · 2022 年11 月 15 日 09:50

h5n1 · 2022 年11 月 15 日 09:52

[2022/11/15 08:16:12.103 +08:00] [WARN] [cluster_util.go:315] [“failed to reach the peer URL”] [address=http://10.130.1.3:2380/version] [remote-member-id=217a0d02d7810cc9] [error=“Get "http://10.130.1.3:2380/version\”: dial tcp 10.130.1.3:2380: connect: connection refused"]
[2022/11/15 08:16:12.104 +08:00] [WARN] [cluster_util.go:168] [“failed to get version”] [remote-member-id=217a0d02d7810cc9] [error=“Get "http://10.130.1.3:2380/version\”: dial tcp 10.130.1.3:2380: connect: connection refused"]
[2022/11/15 08:38:58.356 +08:00] [WARN] [probing_status.go:70] [“prober detected unhealthy status”] [round-tripper-name=ROUND_TRIPPER_SNAPSHOT] [remote-peer-id=217a0d02d7810cc9] [rtt=515.015µs] [error=“dial tcp 10.130.1.3:2380: connect: connection refused”]
[2022/11/15 08:38:58.377 +08:00] [WARN] [probing_status.go:70] [“prober detected unhealthy status”] [round-tripper-name=ROUND_TRIPPER_RAFT_MESSAGE] [remote-peer-id=217a0d02d7810cc9] [rtt=770.328µs] [error=“dial tcp 10.130.1.3:2380: connect: connection refused”]

有些这些报错，下午的时候比较少，看着像pd 网络问题，

kuuhaku · 2022 年11 月 15 日 09:53

那是我关闭pd节点做测试所以有这个问题，后面我启动回来了

kuuhaku · 2022 年11 月 15 日 10:05

查了下我有38 个 Down 的 Region 会不会这个有问题影响到了

kuuhaku · 2022 年11 月 15 日 10:07

Pending Peer 有9000+

h5n1 · 2022 年11 月 15 日 10:14

pd-ctl config show ,pd-ctl scheduler show看下，PD的监控贴下

kuuhaku · 2022 年11 月 15 日 10:15

pd集群重搭后 经常 pd server out

pd集群重搭后经常 pd server out