大鱼海棠
1
【 TiDB 使用环境】线上、测试、调研
【 TiDB 版本】
【遇到的问题】
今天看到tikv 官网leader drop的描述,不理解,想咨询一下,tikv leader drop具体是什么样的过程,在什么情况下会出现
看官网说是因为raftstore繁忙,感觉有些抽象
【复现路径】做过哪些操作出现的问题
【问题现象及影响】
【附件】
请提供各个组件的 version 信息,如 cdc/tikv,可通过执行 cdc version/tikv-server --version 获取。
xfworld
(魔幻之翼)
2
leader 断网了, 或者 心跳没了,就会重新选举了…
或者任何其他的原因导致心跳无法接受,也无法发送的情况下,就 会被新的 leader 顶替掉了
大鱼海棠
3
leader drop就代表重新选举region的leader数量监控吗
xfworld
(魔幻之翼)
4
可以这么理解…
除此之外,可以先排查热点问题,然后 最好从 PD 的调度和 tikv 的层面去处理一下
PD
- 如果 TiKV 压力很小,考虑 PD 的调度是否太频繁。可以查看 PD 页面的 Operator Create 面板,排查 PD 产生调度的类型和数量。
TIKV
- 规则描述:该错误通常是因为 Raftstore 线程卡死,TiKV 的压力已经非常大了。
- 处理方法:
- 观察 Raft Propose 监控,看这个报警的 TiKV 节点是否明显有比其他 TiKV 高很多。如果是,表明这个 TiKV 上有热点,需要检查热点调度是否能正常工作。
- 观察 Raft IO 监控,看延迟是否升高。如果延迟很高,表明磁盘可能有瓶颈。一个能缓解但不怎么安全的办法是将
sync-log
改成 false
。
- 观察 Raft Process 监控,看 tick duration 是否很高。如果是,需要在
[raftstore]
配置下加上 raft-base-tick-interval = “2s”
。
system
(system)
关闭
5
此话题已在最后回复的 60 天后被自动关闭。不再允许新回复。