tikv leader drop 具体过程

【 TiDB 使用环境】线上、测试、调研
【 TiDB 版本】
【遇到的问题】
今天看到tikv 官网leader drop的描述,不理解,想咨询一下,tikv leader drop具体是什么样的过程,在什么情况下会出现
看官网说是因为raftstore繁忙,感觉有些抽象
【复现路径】做过哪些操作出现的问题
【问题现象及影响】

【附件】

请提供各个组件的 version 信息,如 cdc/tikv,可通过执行 cdc version/tikv-server --version 获取。

leader 断网了, 或者 心跳没了,就会重新选举了…

或者任何其他的原因导致心跳无法接受,也无法发送的情况下,就 会被新的 leader 顶替掉了

leader drop就代表重新选举region的leader数量监控吗

可以这么理解…
除此之外,可以先排查热点问题,然后 最好从 PD 的调度和 tikv 的层面去处理一下


PD

  1. 如果 TiKV 压力很小,考虑 PD 的调度是否太频繁。可以查看 PD 页面的 Operator Create 面板,排查 PD 产生调度的类型和数量。

TIKV

  • 规则描述:该错误通常是因为 Raftstore 线程卡死,TiKV 的压力已经非常大了。
  • 处理方法:
    1. 观察 Raft Propose 监控,看这个报警的 TiKV 节点是否明显有比其他 TiKV 高很多。如果是,表明这个 TiKV 上有热点,需要检查热点调度是否能正常工作。
    2. 观察 Raft IO 监控,看延迟是否升高。如果延迟很高,表明磁盘可能有瓶颈。一个能缓解但不怎么安全的办法是将 sync-log 改成 false
    3. 观察 Raft Process 监控,看 tick duration 是否很高。如果是,需要在 [raftstore] 配置下加上 raft-base-tick-interval = “2s”

此话题已在最后回复的 60 天后被自动关闭。不再允许新回复。