tikv leader drop 具体过程

可以这么理解…
除此之外,可以先排查热点问题,然后 最好从 PD 的调度和 tikv 的层面去处理一下


PD

  1. 如果 TiKV 压力很小,考虑 PD 的调度是否太频繁。可以查看 PD 页面的 Operator Create 面板,排查 PD 产生调度的类型和数量。

TIKV

  • 规则描述:该错误通常是因为 Raftstore 线程卡死,TiKV 的压力已经非常大了。
  • 处理方法:
    1. 观察 Raft Propose 监控,看这个报警的 TiKV 节点是否明显有比其他 TiKV 高很多。如果是,表明这个 TiKV 上有热点,需要检查热点调度是否能正常工作。
    2. 观察 Raft IO 监控,看延迟是否升高。如果延迟很高,表明磁盘可能有瓶颈。一个能缓解但不怎么安全的办法是将 sync-log 改成 false
    3. 观察 Raft Process 监控,看 tick duration 是否很高。如果是,需要在 [raftstore] 配置下加上 raft-base-tick-interval = “2s”