tikv节点报错，reason:not_leader

重启试试 · 2023 年3 月 6 日 09:39

【 TiDB 使用环境】生产环境
【 TiDB 版本】 v4.0.10
【遇到的问题：问题现象及影响】 tikv节点报错，reason:not_leader

生产环境的5个KV节点的tidb集群，版本是4.0.10的，3月5日中午突然收到告警，reason:not_leader
查看了监控，有两个kv节点的leader有明显下降的趋势，2分钟左右恢复，导致业务的pod重启。
PD节点上有一些日志信息。

海石花47 · 2023 年3 月 6 日 11:17

可以看看这篇文章，或许有帮助

ffeenn · 2023 年3 月 6 日 11:34

你这版本有点低建议升级。看一下ui面板上面那个时间段是不是有热点。

h5n1 · 2023 年3 月 7 日 02:10

not_leader 是通过region cache信息访问tikv时，tikv上的leader已经迁移到其他节点，之后会使用新节点进行重试，这是正常的行为。从tikv leader监控上看 2个tikv 应该是由于某种原因响应缓慢等导致有leader drop. 可以看看tikv detail → errors下的 leader drop和其他信息确认下。另外看看能否看到网络监控确认下2个tikv的网络是否正常。

xfworld · 2023 年3 月 7 日 02:23

一分钟之内有 337个调度…

检查下这个节点…

严重怀疑有热点问题

重启试试 · 2023 年3 月 8 日 08:02

好的，我去看看，感谢

重启试试 · 2023 年3 月 8 日 08:02

非常感谢

重启试试 · 2023 年3 月 8 日 13:46

查了一下党史的监控，确实有很多leader drop

system · 2023 年5 月 7 日 13:47

此话题已在最后回复的 60 天后被自动关闭。不再允许新回复。