【TiDB 4.0 PCTA 学习笔记】- 3.1.1 TiDB Cluster Monitoring(本地化部署的 TiDB 集群监控)@1班+Kun

课程名称:(301)3.1.1 TiDB Cluster Monitoring(本地化部署的 TiDB 集群监控)

学习时长:20min

课程收获:了解 TiDB 的监控系统的架构,了解 Overview 面板的各项参数的意义,了解报警规则与报警邮件的配置

课程内容: Prometheus;Grafana; Alert Manager

Prometheus:存储监控及性能指标,开源监控系统+时序数据库
Grafana:监控数据可视化工具,展示性能指标
Alert_Manager:通过email,slack,sms发送告警
Pushgateway:收集指标数据
Node_exporter:收集硬件指标
Blackbox_exporter:收集网络指标

Grafana
查看所有组件的状态,每个服务在线节点数量
PD:检查Region相关状态,PD 请求持续时间;用于查看PD请求的频率,region健康
TiDB:OPS,QPS,连接,事务,与TiKV和PD的连接状态
TiKV:region,size,scheduler pending,coprocessor status

TiDB告警系统:Alert Manager;Alert Rules
Alert Levels:Emergency、Critical、Warning;/home/tidb/deploy/conf
Alert Rules Definition Files
Send Out The Alert:/home/tidb/deploy/conf/alertmanager.yml

学习过程中遇到的问题或延伸思考:

  • 问题 1:
  • 问题 2:
  • 延伸思考 1:
  • 延伸思考 2:

学习过程中参考的其他资料

https://docs.pingcap.com/tidb/stable/grafana-overview-dashboard