清除一个节点后重新部署无法启动

【 TiDB 版本】v5.2.2
【遇到的问题】 其中一台kv节点服务器宕机了,重新启动后没法加入到原来的机器,我就把它缩容,然后在该节点删除了所有元部署文件,然后按照 故障排查 重启tikv 节点后 id 号变了,日志报地址占用 这个博客的操作删除了store id 结果还是报同样的错
该节点tikv.log:

[2022/08/02 05:41:39.275 -04:00] [WARN] [client.rs:138] [“failed to update PD client”] [error=“Other("[components/pd_client/src/util.rs:306]: cancel reconnection due to too small interval")”]
[2022/08/02 05:41:39.276 -04:00] [ERROR] [util.rs:460] [“request failed”] [err_code=KV:PD:gRPC] [err=“Grpc(RpcFailure(RpcStatus { code: 2-UNKNOWN, message: "duplicated store address: id:885953 address:\"192.168.0.241:20160\" version:\"5.2.2\" status_address:\"192.168.0.241:20180\" git_hash:\"7acaec5d9c809439b9b0017711f114b44ffd9a49\" start_timestamp:1659433295 deploy_path:\"/home/tidb/Data/deploy/tikv-20160/bin\" , already registered by id:5 address:\"192.168.0.241:20160\" state:Offline version:\"5.2.2\" status_address:\"192.168.0.241:20180\" git_hash:\"7acaec5d9c809439b9b0017711f114b44ffd9a49\" start_timestamp:1652383550 deploy_path:\"/home/tidb/Deploy/tikv-20160/bin\" last_heartbeat:1656335779395060454 ", details: }))”]
[2022/08/02 05:41:39.276 -04:00] [ERROR] [util.rs:469] [“reconnect failed”] [err_code=KV:PD:Unknown] [err=“Other("[components/pd_client/src/util.rs:306]: cancel reconnection due to too small interval")”]

现在怎么都起不来,中台服务器显示为:offline

store5还有吗?

pd-ctl store 5 看看是不是tombstone状态,如果是的话,执行store remove-tombstone

pdctl中删除信息,然后确认无用之后,可以scale-in --force清除

用了–force的 还是不行

5已经没有了 是offline
image

5需要最终消失,不是简单的offeline

curl -X POST http://{pdip}:2379/pd/api/v1/store/${store_id}/state?state=Tombstone

先执行这个,标记成tombstone吧,然后
pd-ctl store remove-tombstone
这样store 5就彻底没了。
操作需谨慎哈,标记成tombstone这个别搞错了。

执行报错了

我看了看,单词也没错啊,就最后这个Tombstone 这个,你试试改成"Tombstone" 看看好使么。

还是不行


5.4代码中只允许标offline和up了。。。。4.0的时候可以标tombstone。
我的运维手册得更新了。稍等我再找找怎么搞下去。

好的 麻烦了 :+1:

store delete 5 不能变成tombstone吗?看这上面也没有leader也没有region了啊。

可以delete 但是状态没变 ,这台服务器已经宕机了,是连不上的

curl -X DELETE http://{pdip}:2379/pd/api/v1/store/5?force=true 

试试这个。

标上了physicallly_destroyed,然后你再看看新节点能不能上线吧。

1 个赞

可以了 感谢~


看代码,physicallly_destroyed和tombstone这两个状态是不影响同地址的tikv上线的。

但是的确影响了 ,就是不能启动,一直报错,而且报错的id明明都是其他id了 还是报id重复,就有点迷惑了