异常空region

【 TiDB 使用环境】生产环境
【 TiDB 版本】v4.0.10
【复现路径】做过哪些操作出现的问题
1、usafe过2个tikv下线操作
2、删除region cache后,一直
image

【遇到的问题:问题现象及影响】
集群写入慢,dm到tidb写入异常,异常信息 Error 9005: Region is unavailable,有10个region没有leader,如图

其他监控

  1. 先检查region 的状态,是否满足副本的配置要求
  2. 检查存活的region leader 数量是否正确…
  3. 以释放的region ,加强释放调度(加速region 移除)
  4. 若有异常的region,可以考虑采用 tikv-cli 的命令进行处理… (前提是 PD 中的region 元数据是正常的)
1 个赞

估计这10个region需要执行unsafe recover了。
先检查下这10个region的所有副本是不是有2个在你下线的tikv中。如果是的话,用unsaferecover恢复下。数据可能会有丢失
https://docs.pingcap.com/zh/tidb/v4.0/tikv-control#强制-region-从多副本失败状态恢复服务慎用

PD 中的region 元数据不是TiKV节点的region上报上来的吗

usafe过2个tikv下线操作,region就不一致了

2 个赞

bug

对 ,就是要多修复几次异常region 集群就恢复了

1 个赞

v4 的版本太老,2024-04-02就EOL,建议安排升级吧

没有leader的region 重新recreate吧

重新recreate

建议升级

:+1:

:+1: :+1: