TIKV节点报错Region error (will back off and retry)和Key is locked (will clean up)

【 TiDB 使用环境】生产环境
【 TiDB 版本】V7.5.0
【复现路径】没做过任何操作
【遇到的问题:问题现象及影响】集群部署模式为2DB、3KV、3PD模式,3太KV组件偶尔会报如下错误
报错WARN一:

报错WARN二:

【附件:截图/日志/监控】


求大佬们看下,这两个告警信息是否有影响

Region error (will back off and retry):
这个错误通常表示 TiKV 在处理 Region 时遇到了一些错误,导致需要进行重试。可能的原因包括网络故障、Region 数据损坏或其他 TiKV 节点故障等情况。在这种情况下,TiKV 会尝试进行重试来恢复正常操作。

Key is locked (will clean up):

这个报错表示出现了读写冲突,即在读取数据时发现了被锁定的 key,可能是由于未提交的乐观锁或未提交的事务导致的。为了处理这种情况,您可以通过过滤出出现次数最多的 primary_lock 来定位问题。可以使用类似以下命令来过滤并查看出现次数最多的 primary_lock:

  cat tikv.log | grep error-response | awk -F "primary_lock:" '{print $2}' | awk -F " " '{print $1}' | sort | uniq -c | sort -n


找出来了出现次数最多的primary_lock 下一步该怎么检查呀

第一个warn,region error: epoch not match 代表着region分裂了,tidb缓存的版本和tikv真实的版本不一致,给tidb报错了,tidb需要去pd查一下再发送请求。这个很正常,不需要关注。
后面的key is locked 大概率是你的tidb节点故障了吧,正常tidb发起一个事务,给tikv加锁后会不断的发送txn_heartbeat,锁不会超时的,如果说tidb节点重启了,那就会残留未清理的锁,其他事务看到后,一检查锁过期了,就开始清理。

你真正要处理的话,就关注下tidb节点是不是总oom之类的。第一个warn完全不用关心就可以。如果集群正常,这俩都不管也没事儿。

集群的增删改查都是正常的,查看了下集群状态tidb两个节点也是up的

两个TIDB节点的日志没看到有啥报错唯独有个WARN

tiup不确定有没有restart记录,如果tidb节点重启过大概率会残留一些锁。
如果增删改查都正常,也不嫌延迟高,那就忽略上面的warn就可以,都是正常现象。

好的,谢谢老师答疑解惑