大量tikv_coprocessor_request_error报警

Jiang · 2020 年12 月 1 日 02:01

版本：4.0.5
现象：收到大量tikv_coprocessor_request_error报警
1606788024(1)

GangShen · 2020 年12 月 1 日 03:57

https://docs.pingcap.com/zh/tidb/stable/alert-rules#tikv_coprocessor_request_error

可以参考一下

Jiang · 2020 年12 月 1 日 06:13

您好，已经看过了，这个报警是not leader

GangShen · 2020 年12 月 1 日 08:16

not leader 是正常的报错情况，leader 调度比较频繁，region cache 过期就可能会导致 not leader 的报错。因为 tidb 拿之前的 region 信息去对应节点上访问 region leader 的时候，发现 leader 已经被调度到别的节点上了，这时候就会报 not leader 的错误。遇到 not leader 错误， tidb 会重试，重新从 pd 获取最新的 region 信息或者 tikv 在返回错误时会返回最新的 leader 信息给 tidb ，tidb 根据新的 leader 信息重新访问到正确的 leader 节点。

可以确认下业务是否有感知影响，如果业务没有特别感知，可以考虑调高这个告警阈值。

Nash · 2020 年12 月 5 日 11:19

Status:firing
Source:51036fc33c7b
description:cluster: AAAA, reason: store_not_match, instance: XXXXX:10007, values: 776647.1186440678
summary:TiKV coprocessor request error
value:776647.1186440678

请教一下这个如何处理，值看起来很高，持续了好几天了。

Jiang · 2020 年12 月 7 日 08:36

谢谢回复，目前业务没有影响，但是这个值很高有时候达到500，还有会出现reason:meet_lock这种情况，这种情况一般是什么引起

spc_monkey · 2020 年12 月 8 日 07:38

meet_lock 是指读的时候遇到锁了，如果数值不高，可忽略，如果较高，需要查看 tidb-server 日志，找到冲突的原因