[FAQ] 故障 region 修复

[问题描述]

  • tikv 日志报错:[FATAL] [lib.rs:499] [“[region 7077359] 9749490 entries[7463:7466] is unavailable from storage”]

[问题分析]

  • 上面报错代表, 当前 tikv 节点上的 region 7077359 已经损坏, tikv 无法自动处理该错误, 需要人工介入

[解决方案]

假设 store_221 down, store_227 正常节点 , region id: 7077359

  1. 停止 221 和 227 tikv 节点(执行 tikv-ctl 需要保证 tikv-server down 状态)

  2. 在 store_221 down 上把 region 置为 tombstone

    • 221上执行 tikv-ctl --db /path/to/tikv/db tombstone -p pdip:pdport -r 7077359
  3. 在 227 正常 store 上 删除故障 peer (store_221)

    • tikv-ctl --db /path/to/tikv-data/db unsafe-recover remove-fail-stores -s store_221 -r 7077359
  4. 启动 221, 227 tikv 节点