是参照这个设置的吗?
https://docs.pingcap.com/zh/tidb/v5.0/use-br-command-line-tool#备份数据到-amazon-s3-后端存储
我没有用过这个,看文档需要设置的细节还是蛮多的
这里可以参照 AWS 官方文档在指定的
Region
区域中创建一个 S3 桶Bucket
,如果有需要,还可以参照 AWS 官方文档 在 Bucket 中创建一个文件夹Folder
。
是参照这个设置的吗?
https://docs.pingcap.com/zh/tidb/v5.0/use-br-command-line-tool#备份数据到-amazon-s3-后端存储
我没有用过这个,看文档需要设置的细节还是蛮多的
这里可以参照 AWS 官方文档在指定的
Region
区域中创建一个 S3 桶Bucket
,如果有需要,还可以参照 AWS 官方文档 在 Bucket 中创建一个文件夹Folder
。
是的,备份命令。桶是建好的,s3权限也没有问题(已经备份43个库,有几个库备份一直失败)。
tiup br:v5.0.4 backup db --pd "xxxxx:2379" --storage "s3://xxx-xxx-xxxxx-tidb-backups/tidb_backup/prod_xxxx_backups/prod_xxx_20230802" --db db --s3.region "ap-east-1" --send-credentials-to-tikv=true --ratelimit 128 --log-file backup_db_db.log
初步怀疑,关闭gc导致的备份慢。
确实和GC有关,我记得老版本备份是不会自动调整GC的,要手工调整GC。
排除法 先本地nfs备份没问题 再试试s3
确认下是不是共享盘的备份路径的权限问题?
BR 备份恢复需要两个用户权限:
运行 BR 用户对备份数据 storage 的读写权限 (运行 BR 账号一般用 root)
BR 需要管理控制目标 storage 多次 BR 写入导致数据 corrupted
运行 TiKV 用户对备份数据 storage 的读写权限 (一般是 tidb 这个用户)
TiKV 需要读写写备份数据
需要检查两个账号对目标 storage 的权限
同一个命令成功备份同 一个集群的40+库。不知道那的问题。有几个库一直失败。
gc 已经手动关闭
| tikv_gc_leader_lease | 20230830-15:42:45 +0800 | Current GC worker leader lease. (DO NOT EDIT) |
| tikv_gc_run_interval | 10m0s | GC run interval, at least 10m, in Go format. |
| tikv_gc_life_time | 8h | All versions within life time will not be collected by GC, at least 10m, in Go format. |
| tikv_gc_last_run_time | 20230829-21:57:45 +0800 | The time when last GC starts. (DO NOT EDIT) |
| tikv_gc_safe_point | 20230829-10:31:45 +0800 | All versions after safe point can be accessed. (DO NOT EDIT) |
| tikv_gc_auto_concurrency | true | Let TiDB pick the concurrency automatically. If set false, tikv_gc_concurrency will be used |
| tikv_gc_scan_lock_mode | legacy | Mode of scanning locks, "physical" or "legacy" |
| tikv_gc_mode | distributed | Mode of GC, "central" or "distributed" |
| tikv_gc_enable | false | |
+--------------------------+----------------------------
看到有这样的日志
[WARN] [push.go:157] ["backup occur region error"] [error="{\"RegionError\":{\"message\":\"region 1232182707 is missing\",\"region_not_found\":{\"region_id\":1232182707}}}"]
[WARN] [push.go:157] ["backup occur region error"] [error="{\"RegionError\":{\"message\":\"EpochNotMatch current epoch of region 1232183445 is conf_ver: 773 version: 23959, but you sent conf_ver: 773 version: 23958\",\"epoch_not_match\":{\"current_regions\":[{\"id\":1232183445,\"start_key\":\"dIAAAAAAACv/MV9ygAAAABD/isqPAAAAAAD6\",\"end_key\":\"dIAAAAAAACv/MV9ygAAAABD/q9XGAAAAAAD6\",\"region_epoch\":{\"conf_ver\":773,\"version\":23959},\"peers\":[{\"id\":1232183446,\"store_id\":21},{\"id\":1232183447,\"store_id\":715979370},{\"id\":1232183448,\"store_id\":20}]},{\"id\":801479234,\"start_key\":\"dIAAAAAAACv/MV9ygAAAAAv/YZRnAAAAAAD6\",\"end_key\":\"dIAAAAAAACv/MV9ygAAAAAz//MxAAAAAAAD6\",\"region_epoch\":{\"conf_ver\":779,\"version\":23841},\"peers\":[{\"id\":801479235,\"store_id\":16},{\"id\":801479237,\"store_id\":20},{\"id\":1231349677,\"store_id\":715979370}]}]}}}"]
tikv storage occur I/O error
发现集群中某个tikv节点的网络异常,ping的延迟在4-5s。
手动ping,发现网络延迟正常,ping latency
跟ping
有什么区别么