【 TiDB 使用环境】生产环境 /测试/ Poc
【 TiDB 版本】 6.5.5
想问下什么情况下会触发这个告警,一般是因为什么引起的,是region迁移了还是其他的?
increase (tikv coprocessor request error { reason!= lock } [10m] )> 1000
告警的相关信息是tikv的非lock相关报错过多,超过阈值。
10分钟内,TiKV协处理器非锁相关的错误数量超过了1000次。TiKV节点故障了吗?还是Region迁移或重分配异常了,查查
可以查看监控 TIKV-Details->Errors->Coprocessor error 看看具体情况是啥。一般是和 region 迁移或者锁有关系。
嗯好的
是不是有相关的region迁移啊
看着监控是有迁移的动作
那就是迁移导致的,等迁移完了,就好了
可能由以下几个原因引起:
-
Region迁移或调度:当TiKV中的Region进行迁移或调度时,可能会导致TiDB无法正确地找到Region的Leader,从而产生
not leader
错误。这种情况下,TiDB会根据TiKV返回的错误信息或从PD(Placement Driver)更新Region信息,并尝试使用新的信息访问Region。 -
Region Cache过期:TiDB侧有一个Region Cache存储Region信息,如果Region发生变化(如Leader切换、Region分裂或合并,或TiKV节点无法访问等),TiDB侧的Region Cache信息可能会过期。此时,根据Region Cache信息访问TiKV时,由于Region的变化,TiKV会返回错误信息,如
not leader
、RegionNotFound
、EpochNotMatch
等。 -
TiKV实例负载或性能问题:如果TiKV实例负载过高或存在性能瓶颈,也可能导致coprocessor请求错误增多。您提到监控到tikv的非lock相关报错过多,这可能与TiKV实例的性能有关。
-
TiKV实例OOM(Out of Memory):如果多个TiKV实例同时OOM,可能会导致在OOM期间没有Leader,从而引发Region不可用的错误。
-
PD问题:PD(Placement Driver)的问题也可能导致服务不可用,进而影响TiKV的coprocessor请求。
好的 感谢回复
好的我查一下
此话题已在最后回复的 7 天后被自动关闭。不再允许新回复。