新版本再来一份 clinic 吧,我手里的机器不够原样复现的。
- 是每次都是这个节点有问题吗?如果是 kill 这个节点 PD 之后就采集 clinic,避免其他信息干扰判断;
- 如果只有这一个节点有问题,可以问下网络那边,这个节点有没有什么特殊性;
- 现在奇怪的点是 kill leader 不报 region unavailable,kill 个无关紧要的 PD 反而报错,但是看监控 region 就没发生过调度;
- 如果愿意尝试,也可以试一下给他们配置 Lable 看是否会绕过(只是一种尝试,因为 region 默认不会调度到同一个 host,感觉调度这块出了什么问题);