【TiDB 4.0 PCTA 学习笔记】- 3.1.1 TiDB Cluster Monitoring(本地化部署的 TiDB 集群监控)@2班+元峥

课程名称:课程版本(101/201/301)+ 课程名称

学习时长:

课程收获:

课程内容:

  • TiDB监控系统
    • Prometheus and Grafana
      • Prometheus:存储监控及性能指标
      • Grafana:展示性能指标
    • 组件介绍
      • Prometheus:开源监控系统+时序数据库
      • Grafana:监控数据可视化工具
      • Alert_Manager:告警组件,通过email,slack,sms发送告警
      • Pushgateway:收集指标数据,等待prometheus拉去
      • Node_exporter:收集硬件指标,推送到prometheus
      • Blackbox_exporter:收集网络指标,推送到prometheus
    • TiDB监控系统架构
  • Grafana
    • Grafana看板介绍
    • overview看板
      • 服务端口状态:所有组件的状态
        • 用于健康检查
        • 重要指标
          • Service Up:每个服务在线节点数量
      • PD:检查Region相关状态,PD 请求持续时间
        • 用于查看PD请求的频率,region健康
        • pd role: 当前节点的角色
        • pd compactiy:所占用硬盘大小
        • 重要指标
          • Current storage size:当前存储大小
          • Number of Regions:region 数量
          • 99% completed_cmds_duration_seconds:有99%请求的完成时间,都是在应小于5ms
          • Region health:健康状态
          • Hot write/read Region’s leader distribution:热点leader数量
      • TiDB:OPS,QPS,连接,事务,与TiKV和PD的连接状态
        • TiDB性能信息,用于查看查询状态、TiDB与PD/TiKV的通信情况
        • 重要指标
          • Statement OPS:SQL语句的执行性能
          • Duration:语句执行时间,重要参数
          • memory usage:如果过大的话会OOM,tidb进程崩溃
          • Connection Count
          • PD TSO Wait Duration
          • Lock Resolve OPS:清理锁的数量
      • TiKV:region,size,scheduler pending,coprocessor status
        • 用于查看region分布及coprocessor运行状态
        • 重要指标
          • leader & region:主要看分布是否均衡
          • CPU:每个TIKV和memory的使用情况
          • server report failures:每个TiKV实例的错误消息数量
          • scheduler pending commands
      • 系统信息:CPU,Memory,IO,Network
        • 硬件情况
    • 其他看板
  • TiDB告警系统
    • Alert Manager
    • Alert Rules
      • Alert Levels:Emergency、Critical、Warning
      • /home/tidb/deploy/conf
    • Alert Rules Definition Files
      • tikv.rules.yml
      • tikv.acclerate.rules.yml
      • tiflash.rules.yml
      • tidb.rules.yml
      • ticdc.rules.yml
      • pd.rules.yml
      • node.rules.yml
      • lightning.rules.yml
      • kafka.rules.yml
      • bypass.rules.yml
      • blacker.rules.yml
      • binlog.rules.yml
    • Send Out The Alert
      • /home/tidb/deploy/conf/alertmanager.yml

学习过程中遇到的问题或延伸思考:

学习过程中遇到的问题或延伸思考:

学习过程中遇到的问题或延伸思考:

  • 问题 1:
  • 问题 2:
  • 延伸思考 1:
  • 延伸思考 2:

学习过程中参考的其他资料