【TiDB 4.0 PCTA 学习笔记】- 本地化部署的 TiDB 集群监控@1班 NULL

本地化部署的 TiDB 集群监控

Part I:TiDB Monitoring System

Prometheus:监控&报警工具,使用时序数据库保存监控数据

Grafana:将监控展示为图表

Alert_Manager:从Prometheus获取监控规则,并在需要时报警

Pushgateway:从各个TiDB组件搜集监控数据,并将其提供给Prometheus

Node_exporter:收集硬件相关监控数据,并将其提供给Prometheus

Blackbox_exporter:收集网络相关监控数据,并将其提供给Prometheus

image

Part II:Grafana: A collection of monitoring graph

展示的图表是实时刷新的

Overview面板

  • Service Port Status:展示所有组件状态

  • PD:Region调度信息,PD调度信息

  • TiDB:OPS,QPS,TPS,连接数等

  • TiKV:存储相关的性能表现

  • System Info:从操作系统层面展示运行情况

Service Port Status面板

  • 展示组件在线时长,绿-正常,红-异常

PD 面板

  • PD的调度信息及响应信息等
  • Leader/Flower

TiDB面板

  • 性能信息
  • 与其他组件的连接信息

TiKV面板

  • 存储相关信息
  • leader和region的状况

System Info 面板

  • 主要是系统层面的监控指标

Part III:TiDB Alert System – Alert Manager

根据配置的邮件/短信来发送报警信息

报警规则:配置在Prometheus中,其中有三个报警级别