pd leader卡住

h5n1 · 2021 年10 月 23 日 01:39

【版本】 v5.0.3 ARM

sysbench oltp_point 256线程压测时，pd tso wait duration升高，tso ops几乎为零，pd CPU大幅下降，检查网络延迟带宽、磁盘IO无问题，tidb CPU（numa绑核24核）也不高

Meditator · 2021 年10 月 25 日 02:25

麻烦提供部署拓扑和主机配置以及当时做了什么操作？谢谢！

h5n1 · 2021 年10 月 25 日 02:31

就是sysbench压测没有别的动作

这道题我不会 · 2021 年11 月 1 日 04:11

从上面监控看 PD TSO RPC Duration 时间很高，需要再排查下监控面板中 PD → TiDB → 指标 PD server TSO handle time + Client revc time ，如果该指标值不高，那大概率是网络层面有问题，如果该值也非常高，需要排查下 PD 在处理 TSO 请求时耗时高的原因，可以参考下面这篇文档排查下：

h5n1 · 2021 年11 月 1 日 04:33

PD server TSO handle time + Client revc time 值不高，从监控看网络延迟也不高

这道题我不会 · 2021 年11 月 1 日 04:55

tiup cluster display 中显示的 pd leader 是 144.17 节点，上面网络监控面板是 144.18 ，这个无法反应出问题；另外看下监控面板 overview -> system info -> Network Traffic 和 TCP Retrans 指标在问题时间段的情况。

h5n1 · 2021 年11 月 1 日 05:00

这道题我不会 · 2021 年11 月 1 日 05:25

1.麻烦看下 pd leader 节点对应时间的日志，核实下日志里有无报错或 warning 信息；
2.另外由于集群是 ARM 架构，而且 tidb/pd/tikv 存在混合部署情况，你可以尝试下对这些进程都 NUMA 绑核下，看下压测效果有无改善。

h5n1 · 2021 年11 月 1 日 06:35

日志被清理了，4个numa_node绑的pd/tidb/tikv，在测试过程中突然出现的pd延时增大的情况

这道题我不会 · 2021 年11 月 1 日 09:31

后面压测还有出现这种吗？如果有的话可以提供下日志和监控数据。

h5n1 · 2021 年11 月 1 日 09:32

没有出现，就这一回

这道题我不会 · 2021 年11 月 1 日 09:35

这就不太好继续排查了，案发现场的日志和监控数据不全

h5n1 · 2021 年11 月 1 日 09:43

原来pd data的文件系统是xfs,后来通过扩缩容方式改成ext4,原来的内容都清理了

这道题我不会 · 2021 年11 月 1 日 14:38

好吧，下次遇到时麻烦及时提供下日志和监控数据

h5n1 · 2022 年10 月 31 日 19:20

此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。