huixiang
(huixiang)
1
【 TiDB 使用环境】生产环境
【 TiDB 版本】
【复现路径】
- TIDB机器10.1.1.1故障(上有TIDB-Server/PD)
机器异常宕机,磁盘硬件问题
- 使用 scale-in删除
tiup cluster scale-in A-cluster -N “IP:4000,IP:2379” --force
- 机器修好后,发现pd/tidb服务自动恢复。并看上去是在和集群通信
问题:
1)机器修好后,发现pd/tidb自动加入到了集群(看网络是在通信),问此时机器节点是否是仍在集群中,只是没有显示出来?是否会有数据一致性风险。
2) 步骤2后此时display A-cluster看不到10.1.1.1了,若是这种情况,如何删除/关停IP:4000,IP:2379 ?
WalterWj
(王军 - PingCAP)
2
scale in 之后是在当前集群中:
- tidb-server 就单纯清理 meta 信息
- pd 的话就是清理 meta 信息 + pd member delete
你服务器好了加进来, tiup display 应该看不到的。加进来的原因应该是有开机启动导致的。进程拉起来之后就会尝试连接集群。
对于这个情况
- tidb-server 直接在服务器上停掉关闭开机启动即可
- pd 的话你去用 pd-ctl 查看下 member,如果看不到这个 pd 信息说明没有注册进来,那么关掉进程 + 关闭开机启动即可。
1 个赞
huixiang
(huixiang)
3
已看。 Pd并没有加入到集群中。
step 1:
bin/pd-ctl -u “10.x.x.1:2379” member
bin/pd-ctl -u “10.x.x.1:2379” health
step2:
ls -l /etc/systemd/system/node_exporter-9100.service #stop
sudo systemctl stop pd-2379.service
sudo systemctl stop tidb-4000.service
sudo systemctl stop cdc-8300.service
sudo systemctl stop node_exporter-9100.service