tidb的监控指标重点关注哪些?

【 TiDB 使用环境】生产环境
【 TiDB 版本】tidb 8.1和tidb 7
【复现路径】做过哪些操作出现的问题
【遇到的问题:问题现象及影响】
【资源配置】进入到 TiDB Dashboard -集群信息 (Cluster Info) -主机(Hosts) 截图此页面
【附件:截图/日志/监控】
tidb的监控指标重点关注哪些?以及在dashboard和grafana重点关注面板,能否详细说明下,谢谢啦~

  1. QPS(每秒查询数):衡量系统处理请求的能力和负载。
  2. 延迟(Latency):包括 SQL 查询的平均延迟和慢查询的延迟,反映系统的响应时间。
  3. TPS(每秒事务数):衡量系统处理事务的能力。
  4. CPU 使用率:监控 TiDB 节点的 CPU 使用情况,帮助识别是否存在资源瓶颈。
  5. 内存使用率:包括 TiDB、TiKV 和 PD 的内存使用情况。
  6. 磁盘 IO:读取和写入磁盘的速度,以及磁盘的延迟。
  7. 网络流量:监控网络的入站和出站流量,以识别可能的网络瓶颈。
  8. TiKV 负载:包括 Region 的分布情况和负载均衡,确保数据的均匀分布。
  9. PD 状态:监控 PD 节点的状态,包括 leader 选举、集群健康和负载均衡情况。
  10. 慢查询日志:记录执行时间较长的查询,以便优化和排查性能问题。
    以上这几点都是非常重要的,尤其是慢查询这一块。

日常的 overview 里面的监控就够了,可以看下文档理解下相关监控指标的含义:https://docs.pingcap.com/zh/tidb/stable/grafana-overview-dashboard
故障分析或者性能优化就具体问题具体分析了。

我们一般就看grafana的overview面板,和dashboard的慢查询

https://zhuanlan.zhihu.com/p/625704356?utm_id=0
你看这g r

:yum:大佬可以发专栏连接呀,专栏还可以点赞收藏一键三连

手动查看慢sql等,学习

具体问题具体分析,grafana+dashboard可选择性很多

Tidb的dashboard和grafana Overview 这两个, Overview 主要看存储总量, tidb dashboard看慢sql。

基本上就是看overview就行了。和Dashboard的慢查询

数据库系统主要看磁盘io, topsql排查慢sql降io,不如买15g的pcie5磁盘加io。而且tikv数量越多。数据库的水位约不容易崩溃

对监控缺乏整体认识的,还是建议刷一遍这个视频。

1 个赞

其实tidb基本不需要监控
太稳定了
一半都是io问题

默认配好的就是重点关注

主要Grafana的Overview面板的CPU、Memory和IO,以及Dashboard的慢查询、SQL执行延迟这些,然后根据具体告警,再针对性查看Grafana或Dashboard的具体监控。