tikv节点报错,reason:not_leader

【 TiDB 使用环境】生产环境
【 TiDB 版本】 v4.0.10
【遇到的问题:问题现象及影响】 tikv节点报错,reason:not_leader

生产环境的5个KV节点的tidb集群,版本是4.0.10的,3月5日中午突然收到告警,reason:not_leader
查看了监控,有两个kv节点的leader有明显下降的趋势,2分钟左右恢复,导致业务的pod重启。
PD节点上有一些日志信息。




可以看看这篇文章,或许有帮助

你这版本有点低建议升级。看一下ui面板上面那个时间段是不是有热点。

not_leader 是通过region cache信息访问tikv时,tikv上的leader已经迁移到其他节点,之后会使用新节点进行重试,这是正常的行为。从tikv leader监控上看 2个tikv 应该是由于某种原因响应缓慢等导致有leader drop. 可以看看tikv detail → errors下的 leader drop和其他信息确认下。 另外看看能否看到网络监控 确认下2个tikv的网络是否正常。

一分钟之内有 337个 调度…

检查下这个节点…

严重怀疑有热点问题

好的,我去看看,感谢

非常感谢

查了一下党史的监控,确实有很多leader drop

此话题已在最后回复的 60 天后被自动关闭。不再允许新回复。