TIKV经常告警TiKV coprocessor request error（ reason: not_leader）

Hacker_gYl9RI8v · 2021 年5 月 21 日 09:35

为提高效率，请提供以下信息，问题描述清晰能够更快得到解决：

【TiDB 版本】TIDB 4.0.12

【问题描述】tidb通过altermanager告警出来的信息如下
实例: 172.30.0.153:20180
信息: TiKV coprocessor request error
详情: cluster: tidb-proxxx, reason: not_leader, instance: xx.xx.0.153:20180, values: 246.15384615384613

这种告警是严重的吗？？

GangShen · 2021 年5 月 21 日 11:29

可以参考这个：大量tikv_coprocessor_request_error报警

Kongdom · 2021 年5 月 22 日 04:16

最后解决了么？我这边也有相同的问题

zhenjiaogao · 2021 年5 月 22 日 05:43

可以先参考下这个帖子提到的信息，做对应的处理：

not leader 是正常的报错情况，leader 调度比较频繁，region cache 过期就可能会导致 not leader 的报错。因为 tidb 拿之前的 region 信息去对应节点上访问 region leader 的时候，发现 leader 已经被调度到别的节点上了，这时候就会报 not leader 的错误。遇到 not leader 错误， tidb 会重试，重新从 pd 获取最新的 region 信息或者 tikv 在返回错误时会返回最新的 leader 信息给 tidb ，tidb 根据新的 leader 信息重新访问到正确的 leader 节点。

可以确认下业务是否有感知影响，如果业务没有特别感知，可以考虑调高这个告警阈值。

Kongdom · 2021 年5 月 22 日 07:47

收到，感谢

zhenjiaogao · 2021 年5 月 22 日 08:54

dba-kit · 2022 年3 月 21 日 01:28

我这里遇到一个问题，一直都是同一个region在报 not_leader，持续有10个小时了，现在还没恢复，有什么排查手段么？

system · 2022 年10 月 31 日 19:12

此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。