【 TiDB 使用环境】生产环境
【 TiDB 版本】V6.1.0
【遇到的问题】PD_down_peer_region_nums告警
【问题现象及影响】
alertmanager 出现PD_down_peer_region_nums告警,请问如何修复呢?
PD_down_peer_region_nums
- 报警规则:
(sum(pd_regions_status{type="down-peer-region-count"}) by (instance) > 0) and (sum(etcd_server_is_leader) by (instance) > 0)
- 规则描述:Raft leader 上报有不响应 peer 的 Region 数量。
- 处理方法:
- 检查是否有 TiKV 宕机,或刚发生重启,或者繁忙。
- 观察 region health 面板,检查
down_peer_region_count
是否在不断减少。 - 检查是否有 TiKV 之间网络不通。
pd-ctl region check
down-peer
之前是否有过什么操作,检查一下这三个store是否有问题。
扩容了3个tikv
不是一直增加的话,可以等集群扩容balance完成之后在观察。
“store_id”: 5 这个节点有些奇怪,是否还有其他操作?
是昨天做的扩容,今天我看banlance完成了呀。除了扩容没别的操作了。
可以继续观察下,看起来还是在做region balance
好的,谢谢。
此话题已在最后回复的 60 天后被自动关闭。不再允许新回复。