cs-kk
(kk)
1
TiDB 版本:2.0
操作:
1.初始化新增PD节点 ansible-playbook bootstrap.yml -l 192.168.138.15
2.部署新增PD节点 ansible-playbook deploy.yml -l 192.168.138.15
3.登录新增的 PD 节点,编辑启动脚本:{deploy_dir}/scripts/run_pd.sh
3.1 移除 --initial-cluster="xxxx" 配置
3.2 添加 --join="http://192.168.138.12:2379"
问题:查看pd.log日志发现报错:run server failed: couldn’t find local name “pd4” in the initial cluster configuration
2 个赞
liubo
(Liubo)
5
这个集群原来有几个pd节点,新增的节点是写到 pd_servers最下面一行吗,pd4 即是新增的节点吗
cs-kk
(kk)
6
最早四个pd,下线过一台,现在是三个pd(不包含pd4),pd4是新增的节点,已经写到pd_servers中
其中15是pd4
cs-kk
(kk)
8
现在正常的pd只有12和14,其中13已经down掉
shafreeck
(Shafreeck | PingCAP)
9
pd4 是可以解析的域名吗? 感觉是 etcd 解析不到 pd4 。 能否发一下启动参数,和从开始一直到报错时的日志?
kissdb
(加勒比海带)
11
其他几个节点,包括下线的,有没有也叫 pd4 的?
shafreeck
(Shafreeck | PingCAP)
12
192.168.138.11 是怎么下掉的,只是 down 掉了,还是走的正常的下线流程?
cs-kk
(kk)
14
11不清楚了,13现在也是down的,13是服务器直接挂掉了
cs-kk
(kk)
15
没有,pd4是新加的,其他节点是pd1-3,其中11不清楚下线流程,13是非正常下线,服务器直接down掉,目前13还没下线,服务器也不通的
shafreeck
(Shafreeck | PingCAP)
16
现在有两个问题,1 是 13 down 掉了,需要先移除,再加新的节点。 2 是 15 可能在没加join 的时候启动过,PD 会记住第一次启动的参数,可以清除其数据再启动。
- 走正常流程移除 13 这个节点
- 清空 15 的 PD 数据,重新启动
cs-kk
(kk)
17
1.13这个节点目前已经不存在,怎么正常下线?
2.怎么清空15PD数据在重新启动?
shafreeck
(Shafreeck | PingCAP)
18
正常下线: https://pingcap.com/docs-cn/v3.0/how-to/scale/with-ansible/ 。 已经down 掉没关系,就不用执行 stop 这一步
清除数据: 找到 pd 4 的数据目录,直接删除就好(不要误删 TiKV 的)
cs-kk
(kk)
19
pd目录是这个吗data.pd
我这边13机器上kv,tidb跟PD都有的
cs-kk
(kk)
21
直接删除这个目录然后运行start.pd这个脚本吗?
run_pd不需要改动任何东西吧