扩容问题

【 TiDB 使用环境】测试
【 TiDB 版本】6.5.1
【复现路径】添加一个PD
【遇到的问题:问题现象及影响】执行SCALE-OUT 时,报错 error": “no endpoint available, the last err was: Get "http://192.168.46.101:2379/pd/api/v1/config/replicate\”: dial tcp 192.168.46.101:2379: connect: connection refused
【资源配置】
【附件:截图/日志/监控】

能把集群拓扑,扩容的配置文件贴出来吗?

pd_servers:

  • host: 192.168.46.101
    ssh_port: 22
    name: pd-1
    client_port: 2379
    peer_port: 2380
    deploy_dir: /home/tidb/deploy/install/deploy/pd-2379
    data_dir: /home/tidb/deploy/install/data/pd-2379
    log_dir: /home/tidb/deploy/install/log/pd-2379

开始时3台PD,昨天两个PD的服务器同时坏了,就准备再加一台PD,现让集群起来,就这样了

topology.yaml (11.1 KB)

意思是现在集群不是up状态?

看样子是你集群处于stop状态,这样是没法扩容的,你得先把集群启动起来,再扩容pd节点

现在是只有一个PD了,已经做了SCALE-IN把两个有问题的PD成功的删掉了,但是在启动集群的时候,TIKV节点还是去连接一个已经不存在的PD,所以TIKV全都启动不了

你原先缩容的时候,集群是启动的状态吧?
再就是,先启动,不启动也没办法修复

保持有1个pd在线的情况下去扩容

可以把报错信息发出来看一下

display 发下状态吧

看看能不能 一个pd启动成功

这概率高啊, 看看tikv 的部署目录下run_tikv.sh 里指定的pd地址修改为当前的,要是还不行的话估计得要做pd-recover恢复了。
https://docs.pingcap.com/zh/tidb-in-kubernetes/stable/pd-recover#使用-pd-recover-恢复-pd-集群