【TiDBer 唠嗑茶话会 134】🔍 分享你的集群诊断经验!遇到XX问题时,哪些监控指标应该首先关注?

1、Dashboard 分析慢SQL、Top SQL
2、Grafana具体组件面板的监控指标进行具体分析

单单看Grafana 还是不够,粒度太粗

数据库库突发异常一般都是慢sql问题,Dashboard,查看慢SQL

先看overview,看节点是否正常,然后看duration

监控整体把握,细节一定要看日志!

主要就看这两个

  1. Grafana + Prometheus 监控系统
    TiDB 使用 Grafana 和 Prometheus 作为主要的监控系统。如果使用 TiUP 部署 TiDB 集群,这个监控系统会自动部署和配置。Grafana 提供了丰富的可视化界面,可以查看各种性能指标和系统状态。

  2. TiDB Dashboard
    TiDB Dashboard 是 TiDB 自 4.0 版本起提供的图形化界面,可用于监控及诊断 TiDB 集群。通过 TiDB Dashboard,你可以了解集群整体运行概况、 查看组件及主机运行状态、 分析集群读写流量分布及趋势变化、 详细了解耗时较长的 SQL 语句的执行信息、 查询所有组件日志、 预估资源管控容量、 收集分析各个组件的性能数据等等!

1 个赞

Grafana 查看磁盘的读写速度,是否包含热点

一般先看 Dashboard 的 CPU 和内存,有波动就去看慢 SQL,慢 SQL 正常走索引可能就是有热点线程满等问题,然后去看 Grafana 的相关指标

慢SQL、 cpu utilitiy \ IO很重要

基本上都是先看dashboard

重点关注tikv的热点信息,还有慢查询sql。

dashboard看慢查询

Dashboard ,资源使用情况及慢SQL查询分析。

1 个赞

感觉大部分问题都是慢sql引起的

先看集群状态 看存活节点数量,确保未中断访问,然后再仔细排查问题

慢SQL和磁盘I/O

先看 dashboard


这份合集也要看起来。

SQL和磁盘I/O会导致慢

  1. Dashboard
  2. 慢SQL;大部分问题都是由于慢SQL产生
  3. tidb社区检索方案

过来学习