pd leader卡住

【版本】 v5.0.3 ARM

sysbench oltp_point 256线程压测时,pd tso wait duration升高,tso ops几乎为零,pd CPU大幅下降,检查网络延迟带宽、磁盘IO无问题,tidb CPU(numa绑核24核)也不高
image



image

image

3赞

麻烦提供部署拓扑和主机配置以及当时做了什么操作?谢谢!

1赞

就是sysbench压测 没有别的动作

1赞

从上面监控看 PD TSO RPC Duration 时间很高,需要再排查下监控面板中 PD -> TiDB -> 指标 PD server TSO handle time + Client revc time ,如果该指标值不高,那大概率是网络层面有问题,如果该值也非常高,需要排查下 PD 在处理 TSO 请求时耗时高的原因,可以参考下面这篇文档排查下:

1赞


PD server TSO handle time + Client revc time 值不高,从监控看网络延迟也不高

1赞

tiup cluster display 中显示的 pd leader 是 144.17 节点,上面网络监控面板是 144.18 ,这个无法反应出问题;另外看下监控面板 overview -> system info -> Network Traffic 和 TCP Retrans 指标在问题时间段的情况。

1赞


1赞

1.麻烦看下 pd leader 节点对应时间的日志,核实下日志里有无报错或 warning 信息;
2.另外由于集群是 ARM 架构,而且 tidb/pd/tikv 存在混合部署情况,你可以尝试下对这些进程都 NUMA 绑核下,看下压测效果有无改善。

1赞

日志被清理了,4个numa_node绑的pd/tidb/tikv,在测试过程中突然出现的pd延时增大的情况

1赞

后面压测还有出现这种吗?如果有的话可以提供下日志和监控数据。

1赞

没有出现,就这一回

1赞

这就不太好继续排查了,案发现场的日志和监控数据不全 :thinking:

1赞

原来pd data的文件系统是xfs,后来通过扩缩容方式改成ext4,原来的内容都清理了

1赞

好吧,下次遇到时麻烦及时提供下日志和监控数据 :handshake:

1赞