课程名称:
3.1.1 TiDB Cluster Monitoring(本地化部署的 TiDB 集群监控)
学习时长:
20分钟
课程收获:
学习TiDB 的监控系统及其报警组件的架构及使用
课程内容:
TiDB的监控系统:
- Prometheus 监控和时序数据库
- Grafana 可视化工具
- Alert_Manager 报警和通知组件
- Pushgateway 收集TiDB监控数据
- Node_exporter 收集硬件监控数据
- Black_exporler 收集网络监控数据
了解Grafana的图形面板,5个系统标签和他们的核心指标:
- Service Port Status
- Services Up
- PD
- CurrentStorage size
- Number of Regions
- 99% completed_cmds_duration_seconds
- region health
- hot write/read region’s leader distribution
- TiDB
- Statement OPS
- Duration
- Connection Count
- PD TSO Wait Duration
- Lock Resolve OPS
- TiKV
- leader®ion
- CPU
- server report failures
- scheduler pending commands
- System Info
- CPU
- Memory
- IO
- Network
Alert Rule配置在Promethous中,分为三个级别:
- Emergency
- Critical
- Warning
学习过程中遇到的问题或延伸思考:
- 问题 1:
- 问题 2:
- 延伸思考 1:
- 延伸思考 2: