【TiDB 4.0 PCTA 学习笔记】3.1.1 TiDB Cluster Monitoring(本地化部署的 TiDB 集群监控)@3班何傲

课程名称:

3.1.1 TiDB Cluster Monitoring(本地化部署的 TiDB 集群监控)

学习时长:

20分钟

课程收获:

学习TiDB 的监控系统及其报警组件的架构及使用

课程内容:

TiDB的监控系统:

  • Prometheus 监控和时序数据库
  • Grafana 可视化工具
  • Alert_Manager 报警和通知组件
  • Pushgateway 收集TiDB监控数据
  • Node_exporter 收集硬件监控数据
  • Black_exporler 收集网络监控数据

了解Grafana的图形面板,5个系统标签和他们的核心指标:

  • Service Port Status
    • Services Up
  • PD
    • CurrentStorage size
    • Number of Regions
    • 99% completed_cmds_duration_seconds
    • region health
    • hot write/read region’s leader distribution
  • TiDB
    • Statement OPS
    • Duration
    • Connection Count
    • PD TSO Wait Duration
    • Lock Resolve OPS
  • TiKV
    • leader&region
    • CPU
    • server report failures
    • scheduler pending commands
  • System Info
    • CPU
    • Memory
    • IO
    • Network

Alert Rule配置在Promethous中,分为三个级别:

  • Emergency
  • Critical
  • Warning

学习过程中遇到的问题或延伸思考:

  • 问题 1:
  • 问题 2:
  • 延伸思考 1:
  • 延伸思考 2:

学习过程中参考的其他资料