Br备份S3失败[BR:KV:ErrKVStorage]tikv storage occur I/O error

是参照这个设置的吗?
https://docs.pingcap.com/zh/tidb/v5.0/use-br-command-line-tool#备份数据到-amazon-s3-后端存储

我没有用过这个,看文档需要设置的细节还是蛮多的

这里可以参照 AWS 官方文档在指定的 Region 区域中创建一个 S3 桶 Bucket ,如果有需要,还可以参照 AWS 官方文档 在 Bucket 中创建一个文件夹 Folder

是的,备份命令。桶是建好的,s3权限也没有问题(已经备份43个库,有几个库备份一直失败)。

tiup br:v5.0.4 backup db --pd "xxxxx:2379" --storage "s3://xxx-xxx-xxxxx-tidb-backups/tidb_backup/prod_xxxx_backups/prod_xxx_20230802" --db db --s3.region "ap-east-1" --send-credentials-to-tikv=true --ratelimit 128 --log-file backup_db_db.log

初步怀疑,关闭gc导致的备份慢。

确实和GC有关,我记得老版本备份是不会自动调整GC的,要手工调整GC。

不对,你这个版本应该已经是自适应的了。

排除法 先本地nfs备份没问题 再试试s3

确认下是不是共享盘的备份路径的权限问题?
BR 备份恢复需要两个用户权限:

运行 BR 用户对备份数据 storage 的读写权限 (运行 BR 账号一般用 root)
BR 需要管理控制目标 storage 多次 BR 写入导致数据 corrupted
运行 TiKV 用户对备份数据 storage 的读写权限 (一般是 tidb 这个用户)
TiKV 需要读写写备份数据
需要检查两个账号对目标 storage 的权限

参考下:br备份时,报错

如果还有问题,附上你的脚本看一下~

同一个命令成功备份同 一个集群的40+库。不知道那的问题。有几个库一直失败。

gc 已经手动关闭

| tikv_gc_leader_lease     | 20230830-15:42:45 +0800                                                                                 | Current GC worker leader lease. (DO NOT EDIT)                                               |
| tikv_gc_run_interval     | 10m0s                                                                                                   | GC run interval, at least 10m, in Go format.                                                |
| tikv_gc_life_time        | 8h                                                                                                      | All versions within life time will not be collected by GC, at least 10m, in Go format.      |
| tikv_gc_last_run_time    | 20230829-21:57:45 +0800                                                                                 | The time when last GC starts. (DO NOT EDIT)                                                 |
| tikv_gc_safe_point       | 20230829-10:31:45 +0800                                                                                 | All versions after safe point can be accessed. (DO NOT EDIT)                                |
| tikv_gc_auto_concurrency | true                                                                                                    | Let TiDB pick the concurrency automatically. If set false, tikv_gc_concurrency will be used |
| tikv_gc_scan_lock_mode   | legacy                                                                                                  | Mode of scanning locks, "physical" or "legacy"                                              |
| tikv_gc_mode             | distributed                                                                                             | Mode of GC, "central" or "distributed"                                                      |
| tikv_gc_enable           | false                                                                                                   |                                                                                             |
+--------------------------+----------------------------

看到有这样的日志

[WARN] [push.go:157] ["backup occur region error"] [error="{\"RegionError\":{\"message\":\"region 1232182707 is missing\",\"region_not_found\":{\"region_id\":1232182707}}}"]
 [WARN] [push.go:157] ["backup occur region error"] [error="{\"RegionError\":{\"message\":\"EpochNotMatch current epoch of region 1232183445 is conf_ver: 773 version: 23959, but you sent conf_ver: 773 version: 23958\",\"epoch_not_match\":{\"current_regions\":[{\"id\":1232183445,\"start_key\":\"dIAAAAAAACv/MV9ygAAAABD/isqPAAAAAAD6\",\"end_key\":\"dIAAAAAAACv/MV9ygAAAABD/q9XGAAAAAAD6\",\"region_epoch\":{\"conf_ver\":773,\"version\":23959},\"peers\":[{\"id\":1232183446,\"store_id\":21},{\"id\":1232183447,\"store_id\":715979370},{\"id\":1232183448,\"store_id\":20}]},{\"id\":801479234,\"start_key\":\"dIAAAAAAACv/MV9ygAAAAAv/YZRnAAAAAAD6\",\"end_key\":\"dIAAAAAAACv/MV9ygAAAAAz//MxAAAAAAAD6\",\"region_epoch\":{\"conf_ver\":779,\"version\":23841},\"peers\":[{\"id\":801479235,\"store_id\":16},{\"id\":801479237,\"store_id\":20},{\"id\":1231349677,\"store_id\":715979370}]}]}}}"]

tikv storage occur I/O error

发现集群中某个tikv节点的网络异常,ping的延迟在4-5s。

手动ping,发现网络延迟正常,ping latencyping有什么区别么