如何清理故障无法恢复的tikv信息

【 TiDB 使用环境】生产环境
【 TiDB 版本】5.0.12
【复现路径】做过哪些操作出现的问题
【遇到的问题:问题现象及影响】
一个tidb集群,有5台tikv服务器,有一台硬件故障,无法恢复了,如何从集群中把故障这台服务器的信息清除掉,包括:pd里面的信息、监控里面的信息、tiup里面的信息
【资源配置】
【附件:截图/日志/监控】

1 个赞


https://docs.pingcap.com/zh/tidb/dev/online-unsafe-recovery

tiup cluster scale-in -N --force

执行缩容操作

tiup cluster scale-in --node 10.0.1.5:20160
https://docs.pingcap.com/zh/tidb/dev/scale-tidb-using-tiup#使用-tiup-扩容缩容-tidb-集群

不加–force应该不行,机器已经连不上了吧

:+1: 学习了 @啦啦啦啦啦 @h5n1

从 TiDB 集群中清除故障的 TiKV 服务器信息,需要按照以下步骤进行操作:

从 PD 中移除故障的 TiKV server

登录 PD 服务器,使用 pd-ctl 工具将故障的 TiKV 服务器从集群中移除。 您可以使用以下命令移除故障的 TiKV 服务器:

pd-ctl -u http://pd-server-ip:pd-server-port store delete <tikv-server-id>

将 替换为您要移除的故障 TiKV 服务器的 ID。

将故障的 TiKV 服务器从监控中移除

如果您使用 Prometheus 进行监控,请从 Prometheus 配置文件中移除相应的 TiKV 服务器。 您可以使用以下命令编辑 Prometheus 配置文件:

vi /etc/prometheus/prometheus.yml

找到为 TiKV 服务器定义目标的部分,并删除与故障服务器对应的目标。

如果您使用 TiUP 来管理 TiDB 集群,您需要从 TiUP 配置文件中删除发生故障的 TiKV 服务器。 您可以使用以下命令编辑 TiUP 配置文件:

tiup edit-config

找到定义 TiKV 服务器的部分,并删除故障服务器的配置。

完成这些步骤后,故障 TiKV 服务器的信息将从 TiDB 集群中清除,包括 PD、监控和 TiUP 中的信息。

1 个赞

我以前测试 delete 命令可能无法删除成功。 但是unsafe 命令肯定 能删除。

1 个赞