PD_down_peer_region_nums
- 报警规则:
(sum(pd_regions_status{type="down-peer-region-count"}) by (instance) > 0) and (sum(etcd_server_is_leader) by (instance) > 0)
- 规则描述:Raft leader 上报有不响应 peer 的 Region 数量。
- 处理方法:
- 检查是否有 TiKV 宕机,或刚发生重启,或者繁忙。
- 观察 region health 面板,检查
down_peer_region_count
是否在不断减少。 - 检查是否有 TiKV 之间网络不通。