如何查看 TiDB 关键监控模板

mao_siyu · 2020 年1 月 19 日 09:59

v3.0.9

TiDB有着丰富监控模板，对各种关键的情况都做了监控，可问题是，一个新手小白想通过监控面板了解TiDB集群现在的运行状况还真不是一朝一夕就能搞定的事儿，所以在这里想麻烦老师给讲解一下，主要监控的重点模板都有哪些，应该如何的去解读。我以在现实环境中遇到的问题来描述一下情况：

测试团队小伙伴：开始做压测了，突然过来问，现在数据库有点儿慢了，能帮忙看一下瓶颈在哪儿吗？

我：。。。。。。我应该先看 overview面板，先看 TiDB相关的内容，在看 TiKV的监控内容，然后在看 System Info。看完了没看明白串不起来，尴尬啊！

我想如下几个问题应该是关键的：

我想知道如果要排查上面的问题，我应该去看哪些监控指标？

那些监控指标要如何去解读？

GangShen · 2020 年1 月 19 日 12:11

个人觉得性能问题排查有两个方面：1. 按照流程一个环节一个环节进行排除 2. 需要靠经验的积累

针对第一点：

mao_siyu · 2020 年1 月 19 日 14:50

老师我可不可以先从看懂监控界面入手，能解决眼前的问题，然后这些原理，我在另花时间去深入研究，如果我想错了您就当我没说

Lucien · 2020 年1 月 20 日 01:58

既然是业务压测，建议按照楼上同学建议，从 SQL 处理流程开始了解相关监控的。这样才能明白慢在哪里。而且官方文档里面就有关于监控的介绍，里面有响应的解释。分析压测问题，应该按照 SQL 处理流程分析，并发现瓶颈点，这是最优的分析方法。

mao_siyu · 2020 年1 月 20 日 07:01

好吧，可能是我想的不对，现在那些监控指标，对着文档看，也是看不懂，如老师们说，应该是我对TiDB原理理解的不够，要不然不会不理解这些指标

Lucien · 2020 年1 月 20 日 07:04

从这个开始 performance-map 开始吧，一步一步查查试试，每一个流程点都有介绍和响应的监控描述，还有一些建议值，仔细排查一下每一处流程监控指标是否正常。

mao_siyu · 2020 年1 月 20 日 07:47

好的非常感谢老师

Lucien · 2020 年1 月 20 日 09:00

如果有新的问题，麻烦提交新的 Asktug 问题帖