br 备份失败

【 TiDB 使用环境】生产环境
【 TiDB 版本】 5.4.0
【复现路径】以前一直成功,伴随业务增长,开始间歇性失败,到最后就一直失败
【遇到的问题:问题现象及影响】
执行命令:
br backup full
–pd “10.134.171.16:2379,10.134.169.224:2379,10.134.171.96:2379”
–storage "s3://aa-cn-aip-tidb-backup-1306458289/${timetag}full"
–s3.endpoint “http://cos.xxx.xxx.xxx.com
–s3.region “xxxx-xxxxxxx”
–send-credentials-to-tikv=true
–ratelimit 128
–log-file /tmp/backupfull
$timetag.log
日志截图

【资源配置】
3 tidb 48c 192G
3 pd 32c 64g
8 tikv 48c 192g
2 ticdc 32c 64g
1 monitor 8c 16g
再附上日志
backupfull_2023-08-02-02-30.log (77.4 MB)

同时间段tikv有报错吗?看一下什么报错

tikv 并没有收到告警,备份是在晚上,早上起来display 集群状态也没有异常

看你就是因为Region is unavailable报错导致的备份失败,你可以按照下面先排查一下
https://docs.pingcap.com/zh/tidb/stable/tidb-troubleshooting-map#11-客户端报-region-is-unavailable-错误

查看备份报错时段对应tikv 的日志,有如下发现,不知道是否有帮助




连着出现的warning,也可能不正常

继续epoch not match

下面的图在没有备份的时候也时常有报


剩下的都是些 info 没有明显异常
同时通篇没有 busy, oom, memory 等字样

追加一些诊断信息
var/log/messages里也没发现 oom
pdctl 看看region和store状态也没有异常

region损坏了
看下这篇文章https://tidb.net/blog/54e388c8

此话题已在最后回复的 60 天后被自动关闭。不再允许新回复。