-
这次看 scheduler 都正常,对了,是不是测试的时候,经常 ctrl + c 啊?这样容易残留 evict-leader-scheduler ,或者断网测试间隔太频繁;
-
pd 内部的 balance-leader 机制其实在运转,但没有产生真正的 balance leader operator
-
这次先把 evict-leader 干掉,然后检查下各个面板,均没有异常的情况下,断网(只断一台机器),然后使用下面的语句查。看时候会复现,如果可以复现,等 15min 后再查,如果还是会复现,再用下面的语句查看结果。最后,恢复网络,待集群恢复正常后,取断网前 10min,集群恢复正常后 10min 的 clinic 结果,及
trace select .....
的几次结果。
trace select * from XXX;
顺便说下,这次的 clinic 中没有包含断网前的信息。
每次 clinic 给人的感觉都有些差异 不像是同一个问题的样子