TIDB集群断网测试问题

  1. 这次看 scheduler 都正常,对了,是不是测试的时候,经常 ctrl + c 啊?这样容易残留 evict-leader-scheduler ,或者断网测试间隔太频繁;

  2. pd 内部的 balance-leader 机制其实在运转,但没有产生真正的 balance leader operator


  3. 这次先把 evict-leader 干掉,然后检查下各个面板,均没有异常的情况下,断网(只断一台机器),然后使用下面的语句查。看时候会复现,如果可以复现,等 15min 后再查,如果还是会复现,再用下面的语句查看结果。最后,恢复网络,待集群恢复正常后,取断网前 10min,集群恢复正常后 10min 的 clinic 结果,及 trace select ..... 的几次结果。

trace select * from XXX;

顺便说下,这次的 clinic 中没有包含断网前的信息。
每次 clinic 给人的感觉都有些差异 :joy: 不像是同一个问题的样子