【TiDBer 唠嗑茶话会 134】🔍 分享你的集群诊断经验!遇到XX问题时,哪些监控指标应该首先关注?

服务问题一般是看流量、cpu、内存,数据库一般是看slow log 内存等

Dashboard看慢查询

tikv资源: 读慢tikv-details > thread cpu > read pool ,写慢tikv-details > thread cpu > store cpu
tidb资源:tidb cpu

Dashboard查看慢sql

主要是cpu,内存,热点,慢查询这些,其他的具体问题具体分析了

我基本看overview和语句分析,慢sql这几个页面;热点再看一点。

查看TiDB Dashboard

如果是整个业务都出问题了,首先怀疑的就是机器资源问题,这种肯定先看dashboard集权信息界面,看下各个机器资源情况。
如果是某一类sql,例如插入类sql,这种可以看下tidb和tikv的日志,看下有没有什么异常信息,然后对应grafana里面的监控确认具体问题原因
如果是单个服务或者接口出问题了,肯定看的dashboard的sql语句分析,看下对应业务的sql慢在哪里。

先接到zabbix 报警,然后查看慢SQL kill 的数据结果

首先看Dashboard 再看硬件CPU、内存、硬盘使用率 再看慢SQL及执行计划 后台看集群情况

关注慢SQL和CPU运行占用率分类讨论

关注grafana的overview中的服务器资源情况

首先观察一下资源使用的情况,然后再看看相关的日志

习惯先看慢查

Dashboard

感谢大家参与本期唠嗑茶话会!积分奖励已发放~ :smiling_face_with_three_hearts: