TiDB 的问答社区

【TiDB 4.0 PCTA 学习笔记】- 3.1.1 TiDB Cluster Monitoring（本地化部署的 TiDB 集群监控）@2班+李响

☄️ 学习与认证经验&心得&笔记

Hacker_OKczgYS8 (Hacker O Kczg Ys8) 2020 年12 月 24 日 17:04 1

课程名称：3.1.1 TiDB Cluster Monitoring（本地化部署的 TiDB 集群监控）

学习时长：

30分钟

课程收获：

了解 TiDB 的监控系统的架构，了解 Overview 面板的各项参数的意义，了解报警规则与报警邮件的配置

课程内容：

一、TiDB的监控系统

TiDB监控系统使用了两个开源项目：Prometheus（普鲁米修斯）和Grafana

Prometheus是监控告警工具，存放TiDB Cluster把监控数据
Grafana是可视化分析工具，把监控数据展示成图表

组件介绍

Prometheus是监控系统+时序数据库
Grafana是可视化分析工具
Alert_Manager从Prometheus获取监控规则，并在需要时报警
Pushgateway收集TiDB监控数据推送给Prometheus
Node_exporter收集硬件相关的监控数据推送给Prometheus
Blackbox_exporter收集网络相关的监控数据推送给Prometheus

image1591×755 151 KB

二、Grafana的监控视图

1.页面图表实时刷新

左上角是面板名称可选择相应分类（全局、PD、TiDB、TiKV等）
时间范围的选择关系到数据正确与否

Overview面板

Service Port Status展示所有组件运行状态，通过红色绿色标记状态是否正常
PD可以看到Region调度相关信息、PD相应信息及TiKV状态
TiDB不仅展现整体系统表现如OPS、QPS等，同时展示与TiKV和PD交互的性能表现，还会展示内存与锁相关信息
TiKV展示存储相关性能表现包括coprocessor的状态
System Info展示操作系统层面信息

Service Port Status

image1760×915 163 KB

只有一个Services UP图表，左边是组件名称，右边展示错误组件（红绿色标注）

PD面板

image1746×904 235 KB

PD role代表当前PD的角色
Storage capacity代表TiDB Cluster下面总共的磁盘大小
Current storage size代表当前已使用大小
Number of Regions代表总共的Regions数量
Normal stores代表TiKV数量
Abnormal stores代表TiKV是否存在错误
99% completed cmds duration seconds代表99%的请求完成时间
Haddle requests duration seconds代表分发TSO的性能
Region Health记录Region健康信息
Hot write Region’s leader distribution记录Region热点情况
Hot read Region’s leader distribution记录Region热点情况
Region heartbeat report记录Region心跳情况
99% Region heartbeat latency记录Region心跳延迟

TiDB面板

image1755×898 185 KB

Statement OPS展示Statement级别的速度（每秒执行次数）
Duration展示从发送请求到接受请求的时间，如果是多个请那就是多个请求的时间（Statement执行时间）
Connection Count展示TiDB接受的总的Connection数量
Memory Usage如果过大会导致OM的发生，导致TiDB进程崩溃
PD TSO Wait Duration展示PD请求的效率
Lock Resolve OPS展示清理锁的数量，TiDB遇到锁会尝试清理锁
TiKV面板

image1759×908 198 KB

leader & region展示leader/region分布是否均衡
CPU & Memory展示每个TiKV的CPU和内存的使用情况
*store size展示每一个TiKV占用磁盘情况
server report failures展示Server的错误情况
schedule pending commands展示每个TiKV实例上正在pending的命令的数量
raft store CPU展示数据副本之间的同步状态，如果过高则表示正进行大量的同步工作

System Info

image1757×906 303 KB

三、TiDB监控系统

Alert Manager
根据配置发送告警邮件或信息，分别包含Prometheus的规则配置和Alert Manager的报警配置
Alert Rules
配置带Prometheus中，包含严重、关注和警告三个级别
Alert Rules Defination Files
通过名字区分

image1572×608 167 KB

模拟告警的详细信息

image1010×658 100 KB
Send Out The Alert
配置相关邮箱、微信等

TiDB_学习助手 (TiDB 学习助手) 2021 年1 月 5 日 06:19 2

同学你好，感谢参与 TiDB 4.0 课程的学习！

本篇笔记逻辑清晰、内容丰富，被评选为优质笔记，将额外获得 20 积分，并在「TiDB 培训」分类下获得“置顶”权益，积分兑换规则将于近期开放，敬请关注！

期待您继续产出优质内容！

system (system) 关闭 2022 年10 月 31 日 19:08 4

此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。

©2023 TiDB Community. 京ICP备20022552号-5 京公网安备11010802043344号