这个告警是什么导致的啊

【 TiDB 使用环境】生产环境 /测试/ Poc
【 TiDB 版本】 6.5.5
想问下什么情况下会触发这个告警,一般是因为什么引起的,是region迁移了还是其他的?
increase (tikv coprocessor request error { reason!= lock } [10m] )> 1000
告警的相关信息是tikv的非lock相关报错过多,超过阈值。

10分钟内,TiKV协处理器非锁相关的错误数量超过了1000次。TiKV节点故障了吗?还是Region迁移或重分配异常了,查查

可以查看监控 TIKV-Details->Errors->Coprocessor error 看看具体情况是啥。一般是和 region 迁移或者锁有关系。

嗯好的

是不是有相关的region迁移啊


是有迁移的动作。

看着监控是有迁移的动作

那就是迁移导致的,等迁移完了,就好了

你的这个告警表达式其实有点问题,按理6.5.5 应该是 meet_lock。
https://github.com/tikv/tikv/pull/10792 可以看下这个 PR

可能由以下几个原因引起:

  1. Region迁移或调度:当TiKV中的Region进行迁移或调度时,可能会导致TiDB无法正确地找到Region的Leader,从而产生not leader错误。这种情况下,TiDB会根据TiKV返回的错误信息或从PD(Placement Driver)更新Region信息,并尝试使用新的信息访问Region。

  2. Region Cache过期:TiDB侧有一个Region Cache存储Region信息,如果Region发生变化(如Leader切换、Region分裂或合并,或TiKV节点无法访问等),TiDB侧的Region Cache信息可能会过期。此时,根据Region Cache信息访问TiKV时,由于Region的变化,TiKV会返回错误信息,如not leaderRegionNotFoundEpochNotMatch等。

  3. TiKV实例负载或性能问题:如果TiKV实例负载过高或存在性能瓶颈,也可能导致coprocessor请求错误增多。您提到监控到tikv的非lock相关报错过多,这可能与TiKV实例的性能有关。

  4. TiKV实例OOM(Out of Memory):如果多个TiKV实例同时OOM,可能会导致在OOM期间没有Leader,从而引发Region不可用的错误。

  5. PD问题:PD(Placement Driver)的问题也可能导致服务不可用,进而影响TiKV的coprocessor请求。

好的 感谢回复

好的我查一下

此话题已在最后回复的 7 天后被自动关闭。不再允许新回复。