PD_down_peer_region_nums告警消除

【 TiDB 使用环境】生产环境
【 TiDB 版本】V6.1.0
【遇到的问题】PD_down_peer_region_nums告警
【问题现象及影响】
alertmanager 出现PD_down_peer_region_nums告警,请问如何修复呢?

https://github.com/tikv/tikv/issues/12934
会不会是这个问题引起的~

PD_down_peer_region_nums

  • 报警规则: (sum(pd_regions_status{type="down-peer-region-count"}) by (instance) > 0) and (sum(etcd_server_is_leader) by (instance) > 0)
  • 规则描述:Raft leader 上报有不响应 peer 的 Region 数量。
  • 处理方法:
    • 检查是否有 TiKV 宕机,或刚发生重启,或者繁忙。
    • 观察 region health 面板,检查 down_peer_region_count 是否在不断减少。
    • 检查是否有 TiKV 之间网络不通。

pd-ctl region check down-peer


check出来应该怎么处理呢?down.pd (33.0 KB)

之前是否有过什么操作,检查一下这三个store是否有问题。

扩容了3个tikv

不是一直增加的话,可以等集群扩容balance完成之后在观察。

“store_id”: 5 这个节点有些奇怪,是否还有其他操作?

是昨天做的扩容,今天我看banlance完成了呀。除了扩容没别的操作了。

可以继续观察下,看起来还是在做region balance

好的,谢谢。

此话题已在最后回复的 60 天后被自动关闭。不再允许新回复。