【TiDBer 唠嗑茶话会 134】🔍 分享你的集群诊断经验!遇到XX问题时,哪些监控指标应该首先关注?

嗯,告警部分只关注节点服务的死了,还是活着
其他的,按照实际的场景进行排查了

  1. Top slow SQL
  2. 资源占用
    • cpu 资源
    • 磁盘 IO
    • 内存(容易挤占,容易OOM)
  3. 热点问题
  4. 连接数超大的问题

大概这样几项已经很受用了

2 个赞

要看资源使用情况和SQL情况

查看资源使用率,然后观察日志输出情况就那些分析…

用Dashboard看慢查询比较多

出问题先看业务着急不着急 :grinning:

观察CPU,内存和磁盘IO情况,再查看慢SQL

先看Dashboard,慢SQL情况。

优化慢SQL看Dashboard

1 dashboard qps 集群状态
2 慢sql 情况
3 加索引,绑定执行计划

1 个赞

Dashboard从整体把控,大部分问题排查可以从这里入手,尤其是分析慢sql和热点问题特别有帮助

开发反馈数据库慢,先排查是否有慢SQL导致,其次看服务器内存,CPU,磁盘IO使用情况。

先看Grafana Overview的System Info看下整体资源情况,然后再根据时间点和具体问题,查看问题时间段内Dashboard的慢SQL、Top SQL或者Grafana具体组件面板的监控指标进行具体分析。

先关注数据库的索引使用情况、服务器的 CPU 和内存利用率

1 个赞

优化慢SQL看Dashboard,再看资源使用情况

1 个赞

Dashboard的sql响应时间

Grafana + Dashboard

先看服务器是不是活着,哈哈哈哈

首要肯定是抓慢SQL,看执行计划,合理利用下索引最有效了。

一般看CPU、定位慢SQL,查看执行计划

先看集群整体负载,再看是否有慢查询