br恢复实例报错

【 TiDB 使用环境】生产\测试环境\ POC
测试
【 TiDB 版本】
v4.0.1
【遇到的问题】
MVAD: [tidb@rt40] ~$ tail -f rs1_20220501.log
[2022/05/03 19:42:32.434 +08:00] [ERROR] [import.go:328] [“ingest file failed”] [file="name:“134426846_66262321_1067_a327f56744cf4ae38cbe27c63681731d8ae96cf46e9e667d6b1bca8c8da5a0d1_write.sst” sha256:“U?\214\274^\321Fa\241\256\223\022\365\220,\233\020\221\3674u\367\247\213\234&Y\237\001\350\226\236” start_key:“t\200\000\000\000\000\000\003\302_i\200\000\000\000\000\000\000\001\004\000\000\000\000’\3273\376” end_key:“t\200\000\000\000\000\000\003\302_i\200\000\000\000\000\000\000\001\004\000\000\000\000’\332>\306\003\200\000\000\001\232[]1” end_version:432905028258235748 crc64xor:12373005462655591030 total_kvs:1396976 total_bytes:53085088 cf:“write” size:14620636 "] [range="start:“t\200\000\000\000\000\000\001\377\266_i\200\000\000\000\000\377\000\000\001\004\000\000\000\000\377’\3273\376\003\200\000\000\377\001\232>\367\027\000\000\000\374” end:“t\200\000\000\000\000\000\001\377\266_i\200\000\000\000\000\377\000\000\001\004\000\000\000\000\377’\332>\306\003\200\000\000\377\001\232[]0\000\000\000\374” "] [region="id:27475 start_key:“t\200\000\000\000\000\000\001\377\266_i\200\000\000\000\000\377\000\000\001\004\000\000\000\000\377’\3273\376\000\000\000\000\373” end_key:“t\200\000\000\000\000\000\001\377\266_i\200\000\000\000\000\377\000\000\001\004\000\000\000\000\377’\332>\306\003\200\000\000\377\001\232[]1\000\000\000\374” region_epoch:<conf_ver:26 version:4221 > peers:<id:27896 store_id:1 > peers:<id:27898 store_id:25 > peers:<id:27897 store_id:10 > "] [error=“epoch not match”] [stack=“github.com/pingcap/log.Error\ \t/go/pkg/mod/github.com/pingcap/log@v0.0.0-20200117041106-d28c14d3b1cd/global.go:42\ github.com/pingcap/br/pkg/restore.(*FileImporter).Import.func1\ \t/home/jenkins/agent/workspace/build_br_multi_branch_v4.0.1/go/src/github.com/pingcap/br/pkg/restore/import.go:328\ngithub.com/pingcap/br/pkg/utils.WithRetry\ \t/home/jenkins/agent/workspace/build_br_multi_branch_v4.0.1/go/src/github.com/pingcap/br/pkg/utils/retry.go:34\ github.com/pingcap/br/pkg/restore.(*FileImporter).Import\ \t/home/jenkins/agent/workspace/build_br_multi_branch_v4.0.1/go/src/github.com/pingcap/br/pkg/restore/import.go:212\ngithub.com/pingcap/br/pkg/restore.(*Client).RestoreFiles.func2\ \t/home/jenkins/agent/workspace/build_br_multi_branch_v4.0.1/go/src/github.com/pingcap/br/pkg/restore/client.go:493\ngithub.com/pingcap/br/pkg/utils.(*WorkerPool).Apply.func1\ \t/home/jenkins/agent/workspace/build_br_multi_branch_v4.0.1/go/src/github.com/pingcap/br/pkg/utils/worker.go:47”]

【复现路径】做过哪些操作出现的问题
从S3存储恢复到tidb

【问题现象及影响】
是什么情况导致这个报错?epoch not match
在论坛里没有找到具体原因

【附件】

  • 相关日志、配置文件、Grafana 监控(https://metricstool.pingcap.com/)
  • TiUP Cluster Display 信息
  • TiUP CLuster Edit config 信息
  • TiDB-Overview 监控
  • 对应模块的 Grafana 监控(如有 BR、TiDB-binlog、TiCDC 等)
  • 对应模块日志(包含问题前后 1 小时日志)

若提问为性能优化、故障排查类问题,请下载脚本运行。终端输出的打印结果,请务必全选并复制粘贴上传。

备份与恢复的版本是否相同?
备份的时间多久时间?tidb_gc_life_time时间多长,尝试把tidb_gc_life_time设置为大于总备份时间试试。

sorry 我的这个报错是恢复的时候报出来的

我说的调整tidb_gc_life_time,是想会不会出现有些数据在没备份到时就清理掉了,你看看备份时间,然后设置tidb_gc_life_time比这个备份时间大的,再恢复看看。

嗯,我在备份的时候把 tidb_gc_life_time 这个设置为了720h,实际备份时间为3小时,应该不会存在gc清理的问题。还有如果gc清理了数据,br工具会报错吧,备份应该不会成功的

换高版本的 br 试试,你的版本有点低(记得低版本的 有个类似 bug)

有更完整的 BR 恢复日志吗?epoch not match 应该会有重试的,可能不是最终失败的原因

集群为 4.0.1 br 版本只要是 4.x 就可以吗?

可以试试。v4.0.10 及以后的(另外,可以提供一下完整的 br 日志)

使用了最新的br工具,版本号 4.0.16,发现在做全量恢复的时候会报这个问题 cannot pass gc safe point check, aborting,按理说恢复的时候不应该报 gc 的问题呀?

[2022/05/10 15:17:51.685 +08:00] [PANIC] [safe_point.go:130] ["cannot pass gc safe point check, aborting"] [error="GC safepoint 433105459913949184 exceed TS 433105083213021185: [BR:Backup:ErrBackupGCSafepointExceeded]backup GC safepoint exceeded"] [errorVerbose="[BR:Backup:ErrBackupGCSafepointExceeded]backup GC safepoint exceeded\
GC safepoint 433105459913949184 exceed TS 433105083213021185\
github.com/pingcap/br/pkg/utils.CheckGCSafePoint\
\tgithub.com/pingcap/br@/pkg/utils/safe_point.go:72\
github.com/pingcap/br/pkg/utils.StartServiceSafePointKeeper.func1\
\tgithub.com/pingcap/br@/pkg/utils/safe_point.go:129\
runtime.goexit\
\truntime/asm_amd64.s:1357"] [safePoint="{ID=br-da25ea53-7433-4a4c-815f-aafec1c9f4df,TTL=5m0s,BackupTime=\"2022-05-10 14:39:36.661 +0800 CST\",BackupTS=433105083213021185}"] [stack="github.com/pingcap/br/pkg/utils.StartServiceSafePointKeeper.func1\
\tgithub.com/pingcap/br@/pkg/utils/safe_point.go:130"]

此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。