课程名称:
3.1.1 TiDB Cluster Monitoring(本地化部署的 TiDB 集群监控)
学习时长:25
课程收获:
学习目标: 了解 TiDB 的监控系统的架构,了解 Overview 面板的各项参数的意义,了解报警规则与报警邮件的配置
关键知识点: Prometheus;Grafana; Alert Manager
课程内容:
一、TIDB 监控系统
- Prometheus : 开源监控系统 + 时序数据库
- Grafana : 可视化监控工具
- Alert_Manager : 通过prometheus 获取监控规则并必要时进行报警,发送email,slack,SMS
- Pushgetway : 收集TIDB组件的监控数据
- Node_exporter : 收集硬件的监控数据
- Blackbox_exporter : 收集网络的监控数据
二、Grafana的监控视图
每个分组包含多个监控项页签,页签中包含多个详细的监控项信息。
- {TiDB_Cluster_name}-Backup-Restore:备份恢复相关的监控项。
- {TiDB_Cluster_name}-Binlog:TiDB Binlog 相关的监控项。
- {TiDB_Cluster_name}-Blackbox_exporter:网络探活相关监控项。
- {TiDB_Cluster_name}-Disk-Performance:磁盘性能相关监控项。
- {TiDB_Cluster_name}-Kafka-Overview:Kafka 相关监控项。
- {TiDB_Cluster_name}-Lightning:TiDB Lightning 组件相关监控项。
- {TiDB_Cluster_name}-Node_exporter:操作系统相关监控项。
- {TiDB_Cluster_name}-Overview:重要组件监控概览。
- {TiDB_Cluster_name}-PD:PD server 组件相关监控项。
- {TiDB_Cluster_name}-Performance-Read:读性能相关监控项。
- {TiDB_Cluster_name}-Performance-Write:写性能相关监控项。
- {TiDB_Cluster_name}-TiDB:TiDB server 组件详细监控项。
- {TiDB_Cluster_name}-TiDB-Summary:TiDB server 相关监控项概览。
- {TiDB_Cluster_name}-TiFlash-Proxy-Summary:数据同步到TiFlash 的代理server 监控项概览。
- {TiDB_Cluster_name}-TiFlash-Summary:TiFlash server 相关监控项概览。
- {TiDB_Cluster_name}-TiKV-Details:TiKV server 组件详细监控项。
- {TiDB_Cluster_name}-TiKV-Summary:TiKV server 监控项概览。
- {TiDB_Cluster_name}-TiKV-Trouble-Shooting:TiKV 错误诊断相关监控项。
- overview
- Service Port Status : 查看节点状态
- PD
- Tidb
- TiKV
三、Alert Manager
- Alert Rules
- Alert levels : Emergency 、Critical、Warning
- Send out the Alert
学习过程中遇到的问题或延伸思考:
- 问题 1:
- 问题 2:
- 延伸思考 1:
- 延伸思考 2: