昨天刚处理了一个类似的时间,这个问题是gc导致的,gc的时候reslove lock ,会导致某些节点压力太大,导致假死,然后pd会立刻驱逐leader,然后节点之后恢复,pd又重新reblance-leader 导致这样的场景。
你可以看一下你的leader下掉的时间点和 tikv details监控里面 - GC里面 - reslovedlocks是否一致。 然后我猜测应该是一致的 ,然后你可以看到当时的io,GC scan_lock会导致io打满之类的问题。