找不到某个 region 的 leader 有很多可能,比如 TiKV 到 PD 的网络不通畅,gRPC 线程被阻塞,或者 TiKV 太忙导致心跳受阻。
楼主的日志里面还有说找不到 PD leader,因此也可能是 PD 集群出了问题,可以看看 PD 日志里面有没有 panic 以及 PD 有没有重启一类的。
对于 region 找不到 leader 的具体情况需要找到出问题的 region:
pd-ctl region key $key
(这里会需要一个 hex string,你可能得想办法把 PD 日志打出来的 key 转化一下。)
随后找到 region 的 leader 所在的 TiKV,搜索一下相关的日志,然后看看有没有什么异常:
grep -E "(region|id)( ?| ?= ?|: ?)$region_id"
但是考虑到备份已经过去一段时间了,region 的分布可能也产生了变化。找到具体原因应该比较困难了,如果后续备份不再失败可以不管它。