storage async snapshot duration过高如何排查

ryans · 2022 年12 月 9 日 07:32

我这边发现从drop大表开始，出现几十K的空region减不掉，并且这台机器的region大小就一直在增长，kv log也没啥报错，怀疑是因为region过大，打snap遇到了问题

目前异常的那台机器，手动连续重启了几次，现在已经彻底GG，只能当leaner。而且上面有几百个DOWN状态的Region

pd一直尝试把leader迁移到他身上，他自己接到迁移请求后正常做迁移操作，然后说自己term比对方低，一直成为follower，就没有然后了。

好处就是集群整体性能恢复正常了，我这边把那个异常节点销毁重建试试。

感觉像是直接drop大表，遇到了奇怪的问题