可以这么理解…
除此之外,可以先排查热点问题,然后 最好从 PD 的调度和 tikv 的层面去处理一下
PD
- 如果 TiKV 压力很小,考虑 PD 的调度是否太频繁。可以查看 PD 页面的 Operator Create 面板,排查 PD 产生调度的类型和数量。
TIKV
- 规则描述:该错误通常是因为 Raftstore 线程卡死,TiKV 的压力已经非常大了。
- 处理方法:
- 观察 Raft Propose 监控,看这个报警的 TiKV 节点是否明显有比其他 TiKV 高很多。如果是,表明这个 TiKV 上有热点,需要检查热点调度是否能正常工作。
- 观察 Raft IO 监控,看延迟是否升高。如果延迟很高,表明磁盘可能有瓶颈。一个能缓解但不怎么安全的办法是将
sync-log
改成false
。 - 观察 Raft Process 监控,看 tick duration 是否很高。如果是,需要在
[raftstore]
配置下加上raft-base-tick-interval = “2s”
。