【 TiDB 使用环境】生产环境
【 TiDB 版本】v6.1.4
【复现路径】
对一个 store 执行了有损恢复 ,timeout 设置了 3600 。tiup ctl:v6.1.4 pd unsafe remove-failed-stores 32996937412
【遇到的问题:问题现象及影响】
卡住在
{
“info”: “Unsafe recovery enters collect report stage: failed stores 32996937412”,
“time”: “2024-11-22 10:49:17.184”
},
{
“info”: “Unsafe recovery enters force leader stage”,
阶段,一直过不去
【资源配置】进入到 TiDB Dashboard -集群信息 (Cluster Info) -主机(Hosts) 截图此页面
【附件:截图/日志/监控】
tikv 日志:
[2024/11/22 17:55:40.496 +08:00] [INFO] [pd.rs:1231] [“Unsafe recovery, received a recovery plan”]
[2024/11/22 17:55:40.496 +08:00] [INFO] [peer.rs:556] [“Unsafe recovery, force leader finished.”]
[2024/11/22 17:55:40.765 +08:00] [WARN] [peer.rs:871] [“Unsafe recovery, can’t wait apply, another plan is executing in progress”] [peer_id=22597784773] [region_id=20278184100]
[2024/11/22 17:55:40.765 +08:00] [INFO] [peer.rs:611] [“Unsafe recovery, wait apply finished”]
[2024/11/22 17:55:40.765 +08:00] [WARN] [peer.rs:613] [“Unsafe recovery, wait apply aborted”]
tikv 正常的节点日志中,也有对正在下线的节点判断节点已经下线的日志:[get tikv client] store (正在pending offline 的节点)is tombstone
想确认下这种情况是不是只能切换 PD leader 然后 kill 目前的 PD leader 。还是说能把已经下线了的 tikv 加回来。有没有方法可以停止目前的 unsafe recover
然后目前集群中其实也有三个节点正在 pending offline 的状态,会不会对有损恢复有影响?