TiDB集群突然变得好慢,有什么办法能定位到问题呢?

为提高效率,提问时请提供以下信息,问题描述清晰可优先响应。

  • 【TiDB 版本】:TiDB 4.0 TiUP部署
  • 【问题描述】:今天9:56突然间,响应时间就变慢了。通过下面两个截图可以看出tikv中118机器有问题。找到了相应的日志。

    现在有什么办法能定位到问题?咱们尽量别再要求提供所有日志了,还有所有监控指标了,就来个精准定位,需要看哪个指标或是哪个日志。
    现在业务正在使用,是生产环境,所以麻烦给指点一下,怎么能快速的解决问题

    tidb.log (4.0 MB)
    tikv.log2020-06-11-10_14_00.204392970 (4.8 MB)
    image

若提问为性能优化、故障排查类问题,请下载脚本运行。终端输出的打印结果,请务必全选并复制粘贴上传。

你好,

当前集群是否恢复正常,此问题是周期性的还是第一次出现。

tikv 日志中出现 [2020/06/11 10:10:10.868 +08:00] [WARN] [endpoint.rs:536] [error-response] [err="Region error (will back off and retry) message: \"peer is not leader for region 3486005, leader may None\" not_leader { region_id: 3486005 }"] 并且监控图中 leader 数量也掉了许多。

需要反馈下信息,便于排查: 反馈下 tikv-details - Server - channel full 和 node_exporter - CPU 和 Disk 信息

刚才比较着急就将tikv重启了一下,之后又过了大约20分钟左右(具体时间没注意),又都好了,leader的数量也上来了。

image
image

重启后的截图:


image

你好,故障时间点 node_exporter - CPU 和 Disk 信息,麻烦反馈下,确认下是否由于磁盘 io 较高导致的。




辛苦上传下 tikv detail 和 tidb 面板,这边看磁盘 io没有问题,并且在 duration 高时间点,没有上涨,可能是,还需要排查一下

这个问题暂时先不排查了,可能是偶然现象,也可能和这边的虚拟机部署有关,后期再观察一下,如果有类似现象,再仔细排查一下。
是否有贴子,指导出现问题后,需要采集哪些信息,如何采集,之后在提问题的时候,就将信息都采集好,避免在问题交流时,关于信息采集的事,还要反复交流,非常浪费大家的时间。如果有一个手册,对大多数问题进行分类 ,之后针对某类问题需要采集什么信息,都整理好。对于我们使用者来说,一是可以自己排查问题,二是便于将需要的信息一次性的采集好,你们定位问题也方便。

您好,性能问题之前有整理一些典型的 case 案例,建议可以参考下这个链接初步排查下问题。另外也推荐看下 tidb-in-action 的相关章节,了解下读写流程相关监控,帮助分析问题 https://github.com/pingcap/tidb-map/blob/master/maps/diagnose-map.md https://book.tidb.io/session3/chapter4/read-write-metrics.html

典型case案例,看着是那么回事,但由于没发生在自已负责的项目当中,所以不会有那么深刻的体会,只是看过了,但离真正用还有一段距离。也是一个方向,会去看的。
这个链接挺好,对一些问题进行了整理,如果能针对现象说明更细致就更好了,不过能搜索异常信息已经很好了
tidb-in-action这个也要去学下,tidb引入到公司后,可能做为长期规划来使用,还是要深入学习的。


事儿比较多,做为开源社区,你们能做到有问题就回复,耐心指导,不让用户白提问题,已经非常棒!!!

:handshake: 感谢支持