TIDB机器故障(有TIDB-Server/PD),使用force命令踢出集群。机器恢复,服务自动恢复,故障机TIDB/PD服务如何关停?

【 TiDB 使用环境】生产环境
【 TiDB 版本】
【复现路径】

  1. TIDB机器10.1.1.1故障(上有TIDB-Server/PD)
    机器异常宕机,磁盘硬件问题
  2. 使用 scale-in删除
    tiup cluster scale-in A-cluster -N “IP:4000,IP:2379” --force
  3. 机器修好后,发现pd/tidb服务自动恢复。并看上去是在和集群通信

问题:
1)机器修好后,发现pd/tidb自动加入到了集群(看网络是在通信),问此时机器节点是否是仍在集群中,只是没有显示出来?是否会有数据一致性风险。
2) 步骤2后此时display A-cluster看不到10.1.1.1了,若是这种情况,如何删除/关停IP:4000,IP:2379 ?

scale in 之后是在当前集群中:

  1. tidb-server 就单纯清理 meta 信息
  2. pd 的话就是清理 meta 信息 + pd member delete

你服务器好了加进来, tiup display 应该看不到的。加进来的原因应该是有开机启动导致的。进程拉起来之后就会尝试连接集群。
对于这个情况

  1. tidb-server 直接在服务器上停掉关闭开机启动即可
  2. pd 的话你去用 pd-ctl 查看下 member,如果看不到这个 pd 信息说明没有注册进来,那么关掉进程 + 关闭开机启动即可。
1 个赞

已看。 Pd并没有加入到集群中。
step 1:
bin/pd-ctl -u “10.x.x.1:2379” member
bin/pd-ctl -u “10.x.x.1:2379” health

step2:
ls -l /etc/systemd/system/node_exporter-9100.service #stop
sudo systemctl stop pd-2379.service
sudo systemctl stop tidb-4000.service
sudo systemctl stop cdc-8300.service
sudo systemctl stop node_exporter-9100.service

重新添加回去