本地化部署的 TiDB 集群监控
Part I:TiDB Monitoring System
Prometheus:监控&报警工具,使用时序数据库保存监控数据
Grafana:将监控展示为图表
Alert_Manager:从Prometheus获取监控规则,并在需要时报警
Pushgateway:从各个TiDB组件搜集监控数据,并将其提供给Prometheus
Node_exporter:收集硬件相关监控数据,并将其提供给Prometheus
Blackbox_exporter:收集网络相关监控数据,并将其提供给Prometheus
Part II:Grafana: A collection of monitoring graph
展示的图表是实时刷新的
Overview面板
-
Service Port Status:展示所有组件状态
-
PD:Region调度信息,PD调度信息
-
TiDB:OPS,QPS,TPS,连接数等
-
TiKV:存储相关的性能表现
-
System Info:从操作系统层面展示运行情况
Service Port Status面板
- 展示组件在线时长,绿-正常,红-异常
PD 面板
- PD的调度信息及响应信息等
- Leader/Flower
TiDB面板
- 性能信息
- 与其他组件的连接信息
TiKV面板
- 存储相关信息
- leader和region的状况
System Info 面板
- 主要是系统层面的监控指标
Part III:TiDB Alert System – Alert Manager
根据配置的邮件/短信来发送报警信息
报警规则:配置在Prometheus中,其中有三个报警级别