【TiDBer 唠嗑茶话会 134】🔍 分享你的集群诊断经验！遇到XX问题时，哪些监控指标应该首先关注？

liuis · 2024 年9 月 11 日 04:40

服务问题一般是看流量、cpu、内存，数据库一般是看slow log 内存等

LI-ldc · 2024 年9 月 11 日 06:03

Dashboard看慢查询

Soysauce520 · 2024 年9 月 11 日 07:35

tikv资源：读慢tikv-details > thread cpu > read pool ，写慢tikv-details > thread cpu > store cpu
tidb资源：tidb cpu

kelvin · 2024 年9 月 11 日 08:31

Dashboard查看慢sql

啦啦啦啦啦 · 2024 年9 月 11 日 08:36

主要是cpu，内存，热点，慢查询这些，其他的具体问题具体分析了

gcworkerishungry · 2024 年9 月 11 日 09:20

我基本看overview和语句分析，慢sql这几个页面；热点再看一点。

ZeroTiDB · 2024 年9 月 12 日 03:16

查看TiDB Dashboard

tidb菜鸟一只 · 2024 年9 月 12 日 03:39

如果是整个业务都出问题了，首先怀疑的就是机器资源问题，这种肯定先看dashboard集权信息界面，看下各个机器资源情况。
如果是某一类sql，例如插入类sql，这种可以看下tidb和tikv的日志，看下有没有什么异常信息，然后对应grafana里面的监控确认具体问题原因
如果是单个服务或者接口出问题了，肯定看的dashboard的sql语句分析，看下对应业务的sql慢在哪里。

xingzhenxiang · 2024 年9 月 12 日 06:00

先接到zabbix 报警，然后查看慢SQL kill 的数据结果

TiDBer_小阿飞 · 2024 年9 月 12 日 06:59

首先看Dashboard 再看硬件CPU、内存、硬盘使用率再看慢SQL及执行计划后台看集群情况

白里登风 · 2024 年9 月 12 日 07:15

关注慢SQL和CPU运行占用率分类讨论

长安是只喵 · 2024 年9 月 12 日 11:36

关注grafana的overview中的服务器资源情况

徐先生xsl · 2024 年9 月 13 日 00:52

首先观察一下资源使用的情况，然后再看看相关的日志

YH-E5h3B · 2024 年9 月 13 日 02:44

习惯先看慢查

洪七表哥 · 2024 年9 月 14 日 00:56

Dashboard

社区小助手 · 2024 年9 月 18 日 03:38

感谢大家参与本期唠嗑茶话会！积分奖励已发放～