dumpling备份报 Error 9005: Region is unavailable

【 TiDB 使用环境】生产环境
【 TiDB 版本】V7.5.0
【复现路径】dumpling备份数据库
【遇到的问题:问题现象及影响】
【资源配置】进入到 TiDB Dashboard -集群信息 (Cluster Info) -主机(Hosts) 截图此页面
【附件:截图/日志/监控】
用dumpling备份的时候,报Error 9005: Region is unavailable

把这个select 拿出来执行也会报错吗?

各节点都正常吗?

单独拿出来执行,一直执行,也不报错

从集群状态来看,各节点都是正常的。

一般报Region is unavailable都是磁盘有问题
看看这个

同时看下监控 TiKV - detail -Erros 有没有错误

也可以看看这个文章, 专栏 - Region is unavailable的排查总结 | TiDB 社区

1 个赞

看下tidb和tikv的日志,看看是什么原因导致的

没看到tikv-ctl命令。
image
这个命令如果有,也只能在tikv节点上运行吧?

tikv中日志

第二次备份又能成功

:flushed:运气真好,可能第一遍的时候集群繁忙访问不到region吧。我们就没这么好的运气了,直接丢了好几个表的数据。

持续观察集群状态和各个节点的error 还有 Region is unavailable就要注意了

这种是tikv太忙了,等待太久断开链接了,不忙的时候备份可能就能成功

这是什么情况

这个实例下面有几十个库,只要备份,就能遇到region不可用的情况,有时备份不能一次性成功,要多次备份才可以,昨天你发的检查region的命令没找到,也不能确认到底存不存在坏region的情况了。

看下集群状态把,是不是在备份的时候给集群负载拉高了,还有检查下 region 的健康度

负载肯定会拉高,毕竟备份一次有好几T的数据,region的健康检查度怎么检查呢

理论上说,tidb 执行 query 的时候,如果报 region 相关的错误的话,本身就会重试;如果 retry 超时之后,就会返回 region is unavailable,即本身就是长时间不可用了。
所以,建议check 下 tidb 集群状态
另外,不知道你的命令是怎么样的,机器配置怎么样。如果并发太高,而集群配置不高、可能也会导致 集群负载过高而出现异常