tikv 集群在 pd 故障时进行 pd scale out 失败

【 TiDB 使用环境】生产环境
【 TiDB 版本】
tikv 6.5.0
【复现路径】做过哪些操作出现的问题
发现硬盘故障导致 一个pd和tikv 服务处于Down的状态
尝试通过scale out + scale in 的方式上线一个新pd节点,并剔除原有故障pd

【遇到的问题:问题现象及影响】
启动新 pd 节点失败
[2024/01/23 11:27:42.636 +08:00] [FATAL] [main.go:91] [“join meet error”] [error=“etcdserver: unhealthy cluster”] [stack=“main.main\n\t/home/jenkins/agent/workspace/build-common/go/src/github.com/pingcap/pd/cmd/pd-server/main.go:91\nruntime.main\n\t/usr/local/go/src/runtime/proc.go:250”]

[2024/01/23 11:28:58.547 +08:00] [WARN] [retry_interceptor.go:62] [“retrying of unary invoker failed”] [target=endpoint://client-01788ffb-4391-4d54-9a41-e121785ca621/10.81.200.101:3379] [attempt=0] [error=“rpc error: code = Unavailable desc = etcdserver: unhealthy cluster”]

【资源配置】进入到 TiDB Dashboard -集群信息 (Cluster Info) -主机(Hosts) 截图此页面

【附件:截图/日志/监控】

你挂了两个了

状态为Down|UI的PD是由于硬盘故障down掉的,另一个处于Down状态的pd是scale out 启动失败的

缩容再扩容吧

1 个赞

由于磁盘故障,导致pd节点无法正常缩容,需要加上 -force 强制剔除故障pd吗?强制剔除有什么注意事项么

加上–force 后完成了故障pd的剔除,感谢

1 个赞

PD已经无法构成多数

3个pd,强行删除一个PD基本没啥影响。如果扩缩容无法启动PD,可以尝试 使用 PD-Recover 恢复PD集群, PD Recover 使用文档 | PingCAP 文档中心
按正常流程,先恢复PD,在恢复kv。