BR恢复数据库报错

wwb519 · 2022 年3 月 25 日 02:53

发现这种region什么对象Id都没有，又不知道怎么删除。

db_user · 2022 年3 月 25 日 02:59

这种是空region，不知道是不是触发了啥bug,你的集群开启了merge region了么，merge region的开启方法如下

pd-ctl config set max-merge-region-size 20

pd-ctl config set max-merge-region-keys 200000

pd-ctl config set merge-schedule-limit 8

config set enable-cross-table-merge true (跨表合并)

https://docs.pingcap.com/zh/tidb/v4.0/massive-regions-best-practices#方法五开启-region-merge

wwb519 · 2022 年3 月 25 日 02:59

tikv_gc_life_time 我昨天调整到24小时，还是报错。之前是默认值10分钟

wwb519 · 2022 年3 月 25 日 02:59

这几个值我设置过了

db_user · 2022 年3 月 25 日 03:01

我问问产研大佬们，不知道是不是触发了什么bug，看着像空region引发的问题，之前也有个同样的问题不了了之

Lucien-卢西恩 · 2022 年3 月 25 日 03:55

检查过下游 TIDB 集群状态吗？

集群是否是新创建的？
TiKV 节点是否都是 up 且 normal 的？
有没有看看 BR 恢复前，TiKV 日志有没有异常报错？

Lucien-卢西恩 · 2022 年3 月 25 日 04:16

在恢复集群使用 pd-ctl key 查询一下。个 range key 状态。

这个范围 [7480000000000001FF6B5F72800000003DFFDD14130000000000FA，7480000000000001FF6B5F72800000003FFF01A9FD0000000000FA) 使用 start key 做一下查询，然后输出反馈提供一下。start key ·[7480000000000001FF6B5F72800000003DFFDD14130000000000FA·

wwb519 · 2022 年3 月 25 日 04:54

集群是新创建的

wwb519 · 2022 年3 月 25 日 05:11

luancheng · 2022 年3 月 25 日 05:46

目前看起来是这个问题，https://github.com/pingcap/tidb/issues/33419，BR 在恢复的时候，对 scan region 返回空的重试逻辑存在 bug, 导致重试过短，这应该是不稳定导致的。

workaround 的话，可以尝试调低并发 --concurrency=32 或者限速，再试一次。

wwb519 · 2022 年3 月 25 日 06:24

BR恢复时scan region 目的是啥？

luancheng · 2022 年4 月 1 日 07:11

scan region 是为了找到 region leader 所在的对应 tikv 节点，然后发送 download/ingest sst 请求到对应节点上

system · 2022 年10 月 31 日 19:05

此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。