tidb 监控报警分离

TiDBer_PDQQV2n1 · 2024 年9 月 7 日 12:22

原监控文件
promethes.yml

job_name: “tikv”
honor_labels: true # don’t overwrite job & instance labels
static_configs:
- targets:
  - ‘192.168.25.2:20180’
  - ‘192.168.25.3:20181’
  - ‘192.168.25.4:20180’
- job_name: “pd”
  honor_labels: true # don’t overwrite job & instance labels
  static_configs:
  - targets:
    - ‘192.168.25.5:2379’
    - ‘192.168.25.6:2379’
    - ‘192.168.25.7:2379’
      rule.yml
alert: NODE_cpu_used_more_than_20%
expr: avg(irate(node_cpu_seconds_total{mode=“idle”}[5m])) by(instance) * 100 <= 80
for: 3m
labels:
env: prod-dc-new-tidb
level: warning
expr: avg(irate(irate(node_cpu_seconds_total{mode=“idle”}[5m])) by(instance) * 100 <= 80
annotations:
description: ‘cluster: prod-dc-new-tidb, instance: {{ $labels.instance }}, values: {{ $value }}’
value: ‘{{ $value }}’
summary: cpu used more than 20%

node_cpu_seconds_total 这个规则汇聚了tidb,tikv,pd等所有节点
问题
如何将tidb tikv pd 各自分割配置

TiDBer_xTvoCh2f · 2024 年9 月 7 日 12:56

这个metric node_cpu_seconds_total{mode=“idle”,instance=~“(10.0.74.222|10.0.74.228):.*”} 只有instance可以进行识别
up:up{group=“pd”, instance=“10.0.74.226:2379”, job=“tidb_port_probe”}
还有group可以判断

TiDBer_xTvoCh2f · 2024 年9 月 7 日 13:10

你是不是理解错了，tidb已经为你分割了告警配置，比如打开的就是pd的。如果需要，可以在pd.rules.yml添加你的告警项。测试的5版本也是这样：

TiDBer_PDQQV2n1 · 2024 年9 月 7 日 13:24

我的意思是有一个系统cpu 的告警规则

node.rules.yml

alert: NODE_cpu_used_more_than_30%
expr: avg(irate(node_cpu_seconds_total{mode=“idle”}[5m])) by(instance) * 100 <= 70
for: 1m
labels:
env: prod-dc-new-tidb
level: warning
expr: avg(irate(irate(node_cpu_seconds_total{mode=“idle”}[5m])) by(instance) * 100 <= 70
annotations:
description: ‘cluster: prod-dc-new-tidb, instance: {{ $labels.instance }}, values: {{ $value }}’
value: ‘{{ $value }}’
summary: cpu used more than 30%

这个文件会告警所有 node 节点的cpu
问题
向把这个cpu 告警进行分组，tidb tikv pd tiflush 各一组