【TiDBer 唠嗑茶话会 134】🔍 分享你的集群诊断经验!遇到XX问题时,哪些监控指标应该首先关注?

:smile: TiDB 的监控信息可以通过多种方式查看:

  1. Grafana + Prometheus 监控系统

TiDB 使用 Grafana 和 Prometheus 作为主要的监控系统。如果使用 TiUP 部署 TiDB 集群,这个监控系统会自动部署和配置。Grafana 提供了丰富的可视化界面,可以查看各种性能指标和系统状态。

  1. TiDB Dashboard

TiDB Dashboard 是 TiDB 自 4.0 版本起提供的图形化界面,可用于监控及诊断 TiDB 集群。通过 TiDB Dashboard,你可以了解集群整体运行概况、 查看组件及主机运行状态、 分析集群读写流量分布及趋势变化、 详细了解耗时较长的 SQL 语句的执行信息、 查询所有组件日志、 预估资源管控容量、 收集分析各个组件的性能数据等等!

  1. 监控页面

对于 TiDB Cloud 用户,还提供了专门的监控页面,可以查看和分析监控指标

如何快速定位问题并进行有效诊断,对于许多刚入门的 TiDB DBA 来说,可能是一个不小的挑战~ 让我们一起来分享集群诊断经验吧!!:raised_hands:

集群诊断经验分享示例:

本期话题:

分享你的集群诊断经验!遇到XX问题时,哪些指标应该首先关注?

参与奖励:

留言参与讨论,获得 30 积分&经验值!

活动时间:

2024.9.6 -2024.9.13

1 个赞

总结一条,应用慢了先找Dashboard看慢sql

Dashboard,看运行状态和慢SQL

大部分问题都是慢sql引起的集群cpu内存波动,正常使用一点问题没有。

1 个赞

先看看集群组件状态是不是up,然后看看组件启动时间,有没有自己重启的。
再看qps曲线,cpu曲线 内存曲线
最后看dashboard里面的sql响应时间

平时主要关注cpu使用率和99.9%分位的SQL运行时间。

遇到查询慢的时候,首先看 tidb面板的kv_request ,看看哪个tikv慢。
然后重点关注kv面板的 grpc 类型,看看是不是 coprocessor 的很多。
然后证实了以后,去优化sql,看看是不是执行计划选的不对

集群当前状态,集群负载,错误日志,慢SQL

监控上QPS超过很多的时候,肯定是sql的问题,直接找开发

  1. Grafana + Prometheus 监控系统 这个有Explorer 吗,有模版连接吗,发一下 :grinning:

先看Grafana overview

先看dashboard,集群的disk情况

先看 Dashboard

内存,cpu,硬盘使用情况

一般是看下内存信息,慢sql,以及流量可视化的热点问题

cpu 内存 磁盘

先display集群状态,再看dashboard和grafana。

建议tidb dashboard增加tidb server热点信息的监控。