tikv节点store一直处于offline状态,无法下线

简单解释目前情况如下:

这 3 个是原始 tikv
store-1 tikv-0 up leader count 4
store-4 tikv-1 down leader count 8
store-5 tikv-2 down leader count 2

这 2 个是 auto failover tikv
store-72180 tikv-3 auto failover up leader count 0
store-72223 tikv-4 auto failover up leader count 0

缩容只能先缩 auto failover tikv,因此

  1. 麻烦先尝试手动调度下 leader,保证原始 store-4,store-5 没有 leader
  2. pd-ctl store delete 删除 store-4 ,store-5 ,保证状态从 down 变为 tombstone
  3. 删 store-4 和 store-5 的 pvc 、pod(不要数据),operator 会自动重新调度,以空数据加入,等 region 调度均衡,确保新 tikv(store id 不一定是 4 和 5)状态是 up
  4. 参考 https://docs.pingcap.com/zh/tidb-in-kubernetes/stable/use-auto-failover#tikv-故障转移策略 将 store-72180 和 store-72223 恢复缩容
  5. (可选)pd-ctl store remove-tombstone 清理 3. 里的 tombstone tikv