TIDB机器故障(有TIDB-Server/PD）,使用force命令踢出集群。机器恢复，服务自动恢复，故障机TIDB/PD服务如何关停？

huixiang · 2024 年10 月 31 日 07:25

【 TiDB 使用环境】生产环境
【 TiDB 版本】
【复现路径】

TIDB机器10.1.1.1故障(上有TIDB-Server/PD）
机器异常宕机，磁盘硬件问题
使用 scale-in删除
tiup cluster scale-in A-cluster -N “IP:4000,IP:2379” --force
机器修好后，发现pd/tidb服务自动恢复。并看上去是在和集群通信

问题：
1）机器修好后，发现pd/tidb自动加入到了集群（看网络是在通信），问此时机器节点是否是仍在集群中，只是没有显示出来？是否会有数据一致性风险。
2）步骤2后此时display A-cluster看不到10.1.1.1了，若是这种情况，如何删除/关停IP:4000,IP:2379 ？

WalterWj · 2024 年10 月 31 日 07:39

scale in 之后是在当前集群中：

tidb-server 就单纯清理 meta 信息
pd 的话就是清理 meta 信息 + pd member delete

你服务器好了加进来， tiup display 应该看不到的。加进来的原因应该是有开机启动导致的。进程拉起来之后就会尝试连接集群。
对于这个情况

tidb-server 直接在服务器上停掉关闭开机启动即可
pd 的话你去用 pd-ctl 查看下 member，如果看不到这个 pd 信息说明没有注册进来，那么关掉进程 + 关闭开机启动即可。

huixiang · 2024 年10 月 31 日 08:03

已看。 Pd并没有加入到集群中。
step 1:
bin/pd-ctl -u “10.x.x.1:2379” member
bin/pd-ctl -u “10.x.x.1:2379” health

step2:
ls -l /etc/systemd/system/node_exporter-9100.service #stop
sudo systemctl stop pd-2379.service
sudo systemctl stop tidb-4000.service
sudo systemctl stop cdc-8300.service
sudo systemctl stop node_exporter-9100.service

YuchongXU · 2024 年11 月 1 日 00:08

重新添加回去