tidb集群使用tiup从4.0.2升级到5.3.1后,集群响应变慢

【概述】: tidb集群使用tiup从4.0.2升级到5.3.1后,集群响应变慢,dashboard中在无业务情况下,慢sql明显增多,pd和tidb的监控指标升级后有变差倾向,tikv性能监控无明显变化
【背景】:3月3日上午11点至晚上10点之间,通过添加删除tikv节点的方式,更换了4.0.2版本集群三个tikv节点的数据盘(从普通ssd更换为pcie ssd),更换完之后监控无明显变化;3月4日19点左右通过tiup将该集群从4.0.2升级到5.3.1,升级成功后观察grafana监控,tidb明显响应时间增加。
【附件】:diag.tar.gz (95.7 MB)

https://clinic.pingcap.com:4433/diag/files?uuid=725a705383f50960-2ade98787f3c049f-9583d136de5ce5e0

升级前后那段时间的监控能看到吗,从目前监控 duration 看好像并没有太多的 slow query


TiKV gRPC 延迟比较低,TiDB 延迟主要消耗在获取 tso,999 100ms+,可以参考 TSO 慢排查手册 v2.0

还是提供一下延迟差异的现象是什么? 的确监控里面没有看到有太多 slow query 和延迟高的情况。

image

image

Hi,看了一下监控,延迟主要在 PD get TSO wait 时间再 50-100ms 左右和 PD TSO RPC duration 延迟一致。查询了 PD 的监控,PD Server TSO handle time 小于 1 ms ,初步定位是网络延迟导致。TiDB 和 PD Server CPU、内存使用率没有负载都非常低,所以建议优先排查节点间的网络延迟,PD leader 到 TiDB server 的情况。可以参考一下这篇文档。TSO 慢排查手册 v2.0