扩容问题

TiDBer_Terry261 · 2023 年3 月 24 日 02:50

【 TiDB 使用环境】测试
【 TiDB 版本】6.5.1
【复现路径】添加一个PD
【遇到的问题：问题现象及影响】执行SCALE-OUT 时，报错 error": “no endpoint available, the last err was: Get "http://192.168.46.101:2379/pd/api/v1/config/replicate\”: dial tcp 192.168.46.101:2379: connect: connection refused
【资源配置】
【附件：截图/日志/监控】

CuteRay · 2023 年3 月 24 日 03:01

能把集群拓扑，扩容的配置文件贴出来吗？

TiDBer_Terry261 · 2023 年3 月 24 日 03:25

pd_servers:

host: 192.168.46.101
ssh_port: 22
name: pd-1
client_port: 2379
peer_port: 2380
deploy_dir: /home/tidb/deploy/install/deploy/pd-2379
data_dir: /home/tidb/deploy/install/data/pd-2379
log_dir: /home/tidb/deploy/install/log/pd-2379

开始时3台PD，昨天两个PD的服务器同时坏了，就准备再加一台PD，现让集群起来，就这样了

TiDBer_Terry261 · 2023 年3 月 24 日 03:26

topology.yaml (11.1 KB)

Kongdom · 2023 年3 月 24 日 03:29

意思是现在集群不是up状态？

CuteRay · 2023 年3 月 24 日 03:30

看样子是你集群处于stop状态，这样是没法扩容的，你得先把集群启动起来，再扩容pd节点

TiDBer_Terry261 · 2023 年3 月 24 日 03:38

现在是只有一个PD了，已经做了SCALE-IN把两个有问题的PD成功的删掉了，但是在启动集群的时候，TIKV节点还是去连接一个已经不存在的PD，所以TIKV全都启动不了

CuteRay · 2023 年3 月 24 日 03:42

你原先缩容的时候，集群是启动的状态吧？
再就是，先启动，不启动也没办法修复

tidb菜鸟一只 · 2023 年3 月 24 日 03:47

保持有1个pd在线的情况下去扩容

Kongdom · 2023 年3 月 24 日 05:30

可以把报错信息发出来看一下

考试没答案 · 2023 年3 月 24 日 06:21

display 发下状态吧

考试没答案 · 2023 年3 月 24 日 06:22

看看能不能一个pd启动成功

h5n1 · 2023 年3 月 24 日 06:29

这概率高啊，看看tikv 的部署目录下run_tikv.sh 里指定的pd地址修改为当前的，要是还不行的话估计得要做pd-recover恢复了。
https://docs.pingcap.com/zh/tidb-in-kubernetes/stable/pd-recover#使用-pd-recover-恢复-pd-集群