【TiDBer 唠嗑茶话会 134】🔍 分享你的集群诊断经验！遇到XX问题时，哪些监控指标应该首先关注？

TiDB社区小助手 · 2024 年9 月 6 日 06:29

TiDB 的监控信息可以通过多种方式查看：

Grafana + Prometheus 监控系统

TiDB 使用 Grafana 和 Prometheus 作为主要的监控系统。如果使用 TiUP 部署 TiDB 集群，这个监控系统会自动部署和配置。Grafana 提供了丰富的可视化界面，可以查看各种性能指标和系统状态。

TiDB Dashboard

TiDB Dashboard 是 TiDB 自 4.0 版本起提供的图形化界面，可用于监控及诊断 TiDB 集群。通过 TiDB Dashboard，你可以了解集群整体运行概况、查看组件及主机运行状态、分析集群读写流量分布及趋势变化、详细了解耗时较长的 SQL 语句的执行信息、查询所有组件日志、预估资源管控容量、收集分析各个组件的性能数据等等！

监控页面

对于 TiDB Cloud 用户，还提供了专门的监控页面，可以查看和分析监控指标

如何快速定位问题并进行有效诊断，对于许多刚入门的 TiDB DBA 来说，可能是一个不小的挑战～让我们一起来分享集群诊断经验吧！！

集群诊断经验分享示例：

本期话题：

分享你的集群诊断经验！遇到XX问题时，哪些指标应该首先关注？

参与奖励：

留言参与讨论，获得 30 积分&经验值！

活动时间：

2024.9.6 -2024.9.13

TiDBer_xTvoCh2f · 2024 年9 月 6 日 08:21

总结一条，应用慢了先找Dashboard看慢sql

zhaokede · 2024 年9 月 6 日 08:22

Dashboard，看运行状态和慢SQL

像风一样的男子 · 2024 年9 月 6 日 08:30

大部分问题都是慢sql引起的集群cpu内存波动，正常使用一点问题没有。

zhanggame1 · 2024 年9 月 6 日 09:01

先看看集群组件状态是不是up，然后看看组件启动时间，有没有自己重启的。
再看qps曲线，cpu曲线内存曲线
最后看dashboard里面的sql响应时间

yg_2024 · 2024 年9 月 6 日 09:08

平时主要关注cpu使用率和99.9%分位的SQL运行时间。

TiDBer_jYQINSnf · 2024 年9 月 6 日 09:12

遇到查询慢的时候，首先看 tidb面板的kv_request ，看看哪个tikv慢。
然后重点关注kv面板的 grpc 类型，看看是不是 coprocessor 的很多。
然后证实了以后，去优化sql，看看是不是执行计划选的不对

这里介绍不了我 · 2024 年9 月 6 日 10:02

集群当前状态，集群负载，错误日志，慢SQL

Fly-bird · 2024 年9 月 6 日 10:23

监控上QPS超过很多的时候，肯定是sql的问题，直接找开发

TiDB六月暴雪飞梨花 · 2024 年9 月 6 日 11:46

Grafana + Prometheus 监控系统这个有Explorer 吗，有模版连接吗，发一下

DBRE · 2024 年9 月 6 日 13:37

先看Grafana overview

至南cc · 2024 年9 月 6 日 14:35

先看dashboard，集群的disk情况

望海崖2084 · 2024 年9 月 6 日 14:57

先看 Dashboard

YuchongXU · 2024 年9 月 6 日 22:00

内存，cpu,硬盘使用情况

随缘天空 · 2024 年9 月 6 日 23:44

一般是看下内存信息，慢sql，以及流量可视化的热点问题

昵称想不起来了 · 2024 年9 月 7 日 00:12

cpu 内存磁盘

呢莫不爱吃鱼 · 2024 年9 月 7 日 00:15

先display集群状态，再看dashboard和grafana。

yytest · 2024 年9 月 7 日 00:30

建议tidb dashboard增加tidb server热点信息的监控。