如何查看 TiDB 关键监控模板

【TiDB 版本】:

v3.0.9

【问题描述】:

TiDB有着丰富监控模板,对各种关键的情况都做了监控,可问题是,一个新手小白想通过监控面板了解TiDB集群现在的运行状况还真不是一朝一夕就能搞定的事儿,所以在这里想麻烦老师给讲解一下,主要监控的重点模板都有哪些,应该如何的去解读。我以在现实环境中遇到的问题来描述一下情况:

测试团队小伙伴: 开始做压测了,突然过来问,现在数据库有点儿慢了,能帮忙看一下瓶颈在哪儿吗?

我:。。。。。。我应该先看 overview面板 ,先看 TiDB相关的内容,在看 TiKV的监控内容,然后在看 System Info。 看完了没看明白串不起来,尴尬啊!

我想如下几个问题应该是关键的:

  1. TiDB 有没有遇到 网络瓶颈, 那么要怎么查看呢?

  2. TiDB 有没有遇到磁盘瓶颈, 以要怎么查看呢?

  3. TiDB 有没有遇到内存瓶颈?

  4. TiDB 有没有遇到CPU压力过高?

  5. PD 有没有遇到网络瓶颈?

  6. PD 调度有没有遇到问题?

  7. TiKV 有没有遇到 网络瓶颈?

  8. TiKV 有没有遇到磁盘瓶颈?

  9. TiKV 有没有遇到内存瓶颈?

  10. TiKV 有没有遇到CPU压力过高?

我想知道如果要排查上面的问题,我应该去看哪些 监控指标?

那些监控指标要如何去解读?

比如说查看 磁盘IO时 70% 就接近瓶颈了,那么我知道我要去扩充 TiKV的磁盘了

可是另一种情况,发现语句冲突较多这里我该怎么办?里面的数值是 个数? 还是次数? 单位又是什么?

所以很希望老师给上面提出来的 10个问题 解答一下,这样一来像我这种小白也就不用一直在群里麻烦老师了。 万分感谢

个人觉得性能问题排查有两个方面:1. 按照流程一个环节一个环节进行排除 2. 需要靠经验的积累

针对第一点:

  1. TiDB 有一个 performace map ,描述了 TiDB 的架构以及组件相互工作的流程,每个环节有对应的监控项,可以看下:
  1. TiDB 源码阅读系列中会讲解 TiDB 中 SQL 的一生,可能根据文章了解读 SQL 和写 SQL 在 TiDB 中的流程
1 个赞

:sweat_smile::sweat_smile::sweat_smile::sweat_smile:

老师我可不可以先从看懂监控界面入手,能解决眼前的问题,然后这些原理,我在另花时间去深入研究,如果我想错了 您就当我没说:upside_down_face:

既然是业务压测,建议按照楼上同学建议,从 SQL 处理流程开始了解相关监控的。这样才能明白慢在哪里 。而且官方文档里面就有关于监控的介绍,里面有响应的解释。分析压测问题,应该按照 SQL 处理流程分析,并发现瓶颈点,这是最优的分析方法。

https://pingcap.com/docs-cn/stable/reference/key-monitoring-metrics/overview-dashboard/

好吧,可能是我想的不对,现在那些监控指标,对着文档看,也是看不懂, 如老师们说,应该是我对TiDB原理理解的不够,要不然不会不理解这些 指标

从这个开始 performance-map 开始吧,一步一步查查试试,每一个流程点都有介绍和响应的监控描述,还有一些建议值,仔细排查一下每一处流程监控指标是否正常。

好的 非常感谢老师

如果有新的问题,麻烦提交新的 Asktug 问题帖