tidb的部署方式为ansible 版本为3.0.12
经过
1.tidb集群突发不可用,经排查后发现是pd集群挂了,报错为
Etcd cluster ID mismatch, expect 4300601326198030056, got 14554309354343818583"]
2.无法恢复pd集群,故准备重新搭建新的pd集群,依然失败,报错为
3.根据他人建议,先起一个单点pd 再扩容,依然失败,报错为,
pd的log
后修改参数 inventory.ini wait_replication = False,后pd启动成功,
4.最后再重启整个集群的过程中,发现tikv全部无法正常启动
登陆tikv的机器,发现tikv的进程·存在,但是-pd 参数指向的ip不是最新启动的pd
log中反复在刷
其中涉及的ip也是新启动的pd
请问接下去该如何处理?
ps 在进行 [PD Recover]的时候,是瞬间返回成功,据同事反馈之前恢复用时很长,不知是否暗含什么问题