【TiDBer 唠嗑茶话会 134】🔍 分享你的集群诊断经验!遇到XX问题时,哪些监控指标应该首先关注?

看CPU、内存使用率有没有突增,Dashboard 看下慢SQL

慢sql、cpu、内存、锁

慢SQL 、CPU、内存、磁盘IO、热点问题、QPS

先查看慢sql

监控用好,事半功倍。

看Dashboard,看慢SQL,cpu和内存消耗,绝大数情况是慢SQL引起的

qps/top sql/slow sql

Dashboard 慢sql

遇到cpu、io、死锁等问题,看top sql、sql sql

grafana每天刷一眼,slow sql 查下

结合出事(告警)的时间段,再在 Dashboard 里面的 TopSQL 对应着捞一把,简直太好用了,没有之一

目前只会关注慢sql

会关注磁盘使用情况及慢sql,定期生成报告。

Dashboard查看慢sql

先找Dashboard看慢sql

这期值得收藏起来慢慢学习啊。
先说我的:
1、看dashboard集群信息有没有掉线的;
2、看概况的CPU,内存,IO等指标;
3、看慢查询,top sql分析。

机器CPU占用过高处理:
Grafana:overview–>system-info–>Cpu–>tidb(cpu)–>tikv(cpu)–>dashboard TOP SQL–>slow query

遇到数据库响应慢,会先在Dashboard中查看集群概况,之后分析Top SQL 和 慢查询,自顶向下逐步分析问题所在

先看Grafana 的over view ,在看dashboard 慢sql

IO指标很重要