紧急求助：tidb性能急剧下降

porpoiselxj · 2023 年7 月 4 日 02:46

【 TiDB 使用环境】生产环境
【 TiDB 版本】v6.1.1
【复现路径】升级已经接近一年，最近未做过任何调整
【遇到的问题：问题现象及影响】
最近两天，tikv grpc duration 突然升高，导致整个集群访问急剧下降，感觉前面一堆sql全都堵着，完全不在执行。

h5n1 · 2023 年7 月 4 日 02:49

blackeexporter nodeexporter看下网络监控

porpoiselxj · 2023 年7 月 4 日 03:03

网络未发现有延时情况，集群节点间通信都是万兆光纤，看起来不是网络的问题

h5n1 · 2023 年7 月 4 日 03:05

慢SQL排查过吗？还有磁盘IO CPU

porpoiselxj · 2023 年7 月 4 日 03:08

tikv 是ssd，io平时就比较高，最近也没有明显变化，看后面的 append log/commit log/apply log 等duration性能也都还行，没有明显增加。
cpu利用率就更低了，平均都在20% 以下

慢查询平时一直都很关注的，现在堵塞的那些sql执行计划看起来都是没有问题的

裤衩儿飞上天 · 2023 年7 月 4 日 03:28

监控贴图上来，用数据说话可信度才会比较高

porpoiselxj · 2023 年7 月 4 日 03:34

需要哪些监控图，谢谢
最好把详细路径也列一下，有劳了

裤衩儿飞上天 · 2023 年7 月 4 日 03:40

帖子中你提到的和大佬提到的相关的监控

porpoiselxj · 2023 年7 月 4 日 03:49

h5n1 · 2023 年7 月 4 日 03:54

这网络延迟都秒级了

porpoiselxj · 2023 年7 月 4 日 03:56

这个只是偶尔出现一次啊，看下面的avg数据，只有300多us啊

h5n1 · 2023 年7 月 4 日 03:57

这个偶尔看上去都不正常，一般这种高的也就几毫秒

porpoiselxj · 2023 年7 月 4 日 04:00

好的，我找IT看看网络方面有没有问题
其他还有什么优化的方向吗？

TiDBer_jYQINSnf · 2023 年7 月 4 日 04:35

pd-ctl store 看下
昨天遇到一个故障了2台机器的集群，region多副本失联，不能正常工作，启动一个以后正常了。

porpoiselxj · 2023 年7 月 4 日 05:12

实例看起啦都正常的，最近也没有崩溃重启的情况

像风一样的男子 · 2023 年7 月 4 日 05:33

看下最近一段时间内的sql语句分析看看是那些sql耗时长调用频繁

porpoiselxj · 2023 年7 月 4 日 07:50

跪谢大佬，IT检测后发现有一个tikv节点的光模块有问题，有大量丢包，更换硬件之后，性能立马恢复了，非常感谢。

zhanggame1 · 2023 年7 月 4 日 07:51

这种报错很像丢包，其实挺好查的

cassblanca · 2023 年7 月 4 日 08:36

搞了半天是网络的锅

system · 2023 年9 月 2 日 08:37

此话题已在最后回复的 60 天后被自动关闭。不再允许新回复。