TiDB集群突然变得好慢，有什么办法能定位到问题呢？

Whm412 · 2020 年6 月 11 日 03:03

为提高效率，提问时请提供以下信息，问题描述清晰可优先响应。

【TiDB 版本】：TiDB 4.0 TiUP部署
【问题描述】：今天9:56突然间，响应时间就变慢了。通过下面两个截图可以看出tikv中118机器有问题。找到了相应的日志。

现在有什么办法能定位到问题？咱们尽量别再要求提供所有日志了，还有所有监控指标了，就来个精准定位，需要看哪个指标或是哪个日志。
现在业务正在使用，是生产环境，所以麻烦给指点一下，怎么能快速的解决问题

tidb.log (4.0 MB)
tikv.log2020-06-11-10_14_00.204392970 (4.8 MB)

image1273×577 57.7 KB

若提问为性能优化、故障排查类问题，请下载脚本运行。终端输出的打印结果，请务必全选并复制粘贴上传。

来了老弟 · 2020 年6 月 11 日 03:38

你好，

当前集群是否恢复正常，此问题是周期性的还是第一次出现。

tikv 日志中出现 [2020/06/11 10:10:10.868 +08:00] [WARN] [endpoint.rs:536] [error-response] [err="Region error (will back off and retry) message: \"peer is not leader for region 3486005, leader may None\" not_leader { region_id: 3486005 }"] 并且监控图中 leader 数量也掉了许多。

需要反馈下信息，便于排查：反馈下 tikv-details - Server - channel full 和 node_exporter - CPU 和 Disk 信息

Whm412 · 2020 年6 月 11 日 03:52

刚才比较着急就将tikv重启了一下，之后又过了大约20分钟左右（具体时间没注意），又都好了，leader的数量也上来了。

重启后的截图：

来了老弟 · 2020 年6 月 11 日 06:21

你好，故障时间点 node_exporter - CPU 和 Disk 信息，麻烦反馈下，确认下是否由于磁盘 io 较高导致的。

Whm412 · 2020 年6 月 11 日 06:29

来了老弟 · 2020 年6 月 11 日 10:11

辛苦上传下 tikv detail 和 tidb 面板，这边看磁盘 io没有问题，并且在 duration 高时间点，没有上涨，可能是，还需要排查一下

Whm412 · 2020 年6 月 12 日 01:57

这个问题暂时先不排查了，可能是偶然现象，也可能和这边的虚拟机部署有关，后期再观察一下，如果有类似现象，再仔细排查一下。
是否有贴子，指导出现问题后，需要采集哪些信息，如何采集，之后在提问题的时候，就将信息都采集好，避免在问题交流时，关于信息采集的事，还要反复交流，非常浪费大家的时间。如果有一个手册，对大多数问题进行分类，之后针对某类问题需要采集什么信息，都整理好。对于我们使用者来说，一是可以自己排查问题，二是便于将需要的信息一次性的采集好，你们定位问题也方便。

小王同学 · 2020 年6 月 12 日 02:14

您好，性能问题之前有整理一些典型的 case 案例，建议可以参考下这个链接初步排查下问题。另外也推荐看下 tidb-in-action 的相关章节，了解下读写流程相关监控，帮助分析问题 https://github.com/pingcap/tidb-map/blob/master/maps/diagnose-map.md https://book.tidb.io/session3/chapter4/read-write-metrics.html

Whm412 · 2020 年6 月 12 日 02:24

典型case案例，看着是那么回事，但由于没发生在自已负责的项目当中，所以不会有那么深刻的体会，只是看过了，但离真正用还有一段距离。也是一个方向，会去看的。
这个链接挺好，对一些问题进行了整理，如果能针对现象说明更细致就更好了，不过能搜索异常信息已经很好了
tidb-in-action这个也要去学下，tidb引入到公司后，可能做为长期规划来使用，还是要深入学习的。

事儿比较多，做为开源社区，你们能做到有问题就回复，耐心指导，不让用户白提问题，已经非常棒！！！

小王同学 · 2020 年6 月 12 日 02:38

感谢支持