tidb的监控指标重点关注哪些？

kevinsna · 2024 年8 月 12 日 04:28

【 TiDB 使用环境】生产环境
【 TiDB 版本】tidb 8.1和tidb 7
【复现路径】做过哪些操作出现的问题
【遇到的问题：问题现象及影响】
【资源配置】进入到 TiDB Dashboard -集群信息 (Cluster Info) -主机(Hosts) 截图此页面
【附件：截图/日志/监控】
tidb的监控指标重点关注哪些？以及在dashboard和grafana重点关注面板，能否详细说明下，谢谢啦~

TiDB_M · 2024 年8 月 12 日 05:10

QPS（每秒查询数）：衡量系统处理请求的能力和负载。
延迟（Latency）：包括 SQL 查询的平均延迟和慢查询的延迟，反映系统的响应时间。
TPS（每秒事务数）：衡量系统处理事务的能力。
CPU 使用率：监控 TiDB 节点的 CPU 使用情况，帮助识别是否存在资源瓶颈。
内存使用率：包括 TiDB、TiKV 和 PD 的内存使用情况。
磁盘 IO：读取和写入磁盘的速度，以及磁盘的延迟。
网络流量：监控网络的入站和出站流量，以识别可能的网络瓶颈。
TiKV 负载：包括 Region 的分布情况和负载均衡，确保数据的均匀分布。
PD 状态：监控 PD 节点的状态，包括 leader 选举、集群健康和负载均衡情况。
慢查询日志：记录执行时间较长的查询，以便优化和排查性能问题。
以上这几点都是非常重要的，尤其是慢查询这一块。

Jasper · 2024 年8 月 12 日 05:14

日常的 overview 里面的监控就够了，可以看下文档理解下相关监控指标的含义：https://docs.pingcap.com/zh/tidb/stable/grafana-overview-dashboard
故障分析或者性能优化就具体问题具体分析了。

Kongdom · 2024 年8 月 12 日 05:33

我们一般就看grafana的overview面板，和dashboard的慢查询

tidb狂热爱好者 · 2024 年8 月 12 日 06:09

https://zhuanlan.zhihu.com/p/625704356?utm_id=0
你看这g r

Kongdom · 2024 年8 月 12 日 06:28

大佬可以发专栏连接呀，专栏还可以点赞收藏一键三连

TiDBer_xTvoCh2f · 2024 年8 月 12 日 07:01

手动查看慢sql等，学习

这里介绍不了我 · 2024 年8 月 12 日 08:41

具体问题具体分析，grafana+dashboard可选择性很多

我是人间不清醒 · 2024 年8 月 12 日 08:55

Tidb的dashboard和grafana Overview 这两个， Overview 主要看存储总量， tidb dashboard看慢sql。

舞动梦灵 · 2024 年8 月 12 日 09:04

基本上就是看overview就行了。和Dashboard的慢查询

tidb狂热爱好者 · 2024 年8 月 12 日 09:14

数据库系统主要看磁盘io， topsql排查慢sql降io，不如买15g的pcie5磁盘加io。而且tikv数量越多。数据库的水位约不容易崩溃

有猫万事足 · 2024 年8 月 12 日 09:35

bilibili.com

揭秘！ TiDB 原厂性能调优原理、工具与套路_哔哩哔哩_bilibili

如果你一直以来都迷失在 TiDB 数据库的上百个性能监控图表中，如果在每次出现问题时你都无法快速定位问题出在应用侧还是数据库本身，如果你无法在千奇百怪的现象中找到问题的根源。请一定关注这次分享，我们会邀请两位 TiDB 原厂性能调优资深专家，为你从原理、工具和典型案例三个方面，揭秘 TiDB 数据库原厂调优的最佳实践。在这里，你会掌握 TiDB 数据库性能异常如何定位，如何选择合适的监控图表，并且, 视频播放量 727、弹幕量 1、点赞数 8、投硬币枚数 4、收藏人数 29、转发人数 12,...

对监控缺乏整体认识的，还是建议刷一遍这个视频。

tidb狂热爱好者 · 2024 年8 月 12 日 10:26

其实tidb基本不需要监控
太稳定了
一半都是io问题

濱崎悟空 · 2024 年8 月 12 日 11:09

默认配好的就是重点关注

FutureDB · 2024 年8 月 12 日 14:18

主要Grafana的Overview面板的CPU、Memory和IO，以及Dashboard的慢查询、SQL执行延迟这些，然后根据具体告警，再针对性查看Grafana或Dashboard的具体监控。