-
首先,再 22:33:00 左右断网,而其他 store 的 leader 却没有增长,是引发 Region is unavailable 的问题点;
-
Region heartbeat report 消失预期之中,因为断网
-
balance-leader operator 全无,意料之外,也是引发了 1;
-
202 故障时间段内,PD leader 是 203,杀的也不是 PD leader
-
细看 log,用表达式去除一些无用日志后,内容如下,203 rpc 连自己失败了,但其实自己连自己网络应该是没问题的:
综上,应该是踩到这个 bug 了–> https://github.com/tikv/tikv/issues/12934 (此 BUG 影响 5.3 以上版本集群行为),这个 BUG 重启后会出现 Region Heartbeat Pending ,与本问题现象吻合,刚好是恢复的时间点。
可以尝试用这个 hotfix → https://github.com/tikv/tikv/releases/tag/v5.4.2-20220802 看是否还会可复现问题。