tikv 集群在 pd 故障时进行 pd scale out 失败

cat0dog · 2024 年1 月 23 日 03:57

【 TiDB 使用环境】生产环境
【 TiDB 版本】
tikv 6.5.0
【复现路径】做过哪些操作出现的问题
发现硬盘故障导致一个pd和tikv 服务处于Down的状态
尝试通过scale out + scale in 的方式上线一个新pd节点，并剔除原有故障pd

【遇到的问题：问题现象及影响】
启动新 pd 节点失败
[2024/01/23 11:27:42.636 +08:00] [FATAL] [main.go:91] [“join meet error”] [error=“etcdserver: unhealthy cluster”] [stack=“main.main\n\t/home/jenkins/agent/workspace/build-common/go/src/github.com/pingcap/pd/cmd/pd-server/main.go:91\nruntime.main\n\t/usr/local/go/src/runtime/proc.go:250”]

[2024/01/23 11:28:58.547 +08:00] [WARN] [retry_interceptor.go:62] [“retrying of unary invoker failed”] [target=endpoint://client-01788ffb-4391-4d54-9a41-e121785ca621/10.81.200.101:3379] [attempt=0] [error=“rpc error: code = Unavailable desc = etcdserver: unhealthy cluster”]

【资源配置】进入到 TiDB Dashboard -集群信息 (Cluster Info) -主机(Hosts) 截图此页面

【附件：截图/日志/监控】

tidb狂热爱好者 · 2024 年1 月 23 日 04:00

你挂了两个了

cat0dog · 2024 年1 月 23 日 04:01

状态为Down|UI的PD是由于硬盘故障down掉的，另一个处于Down状态的pd是scale out 启动失败的

小龙虾爱大龙虾 · 2024 年1 月 23 日 04:36

缩容再扩容吧

cat0dog · 2024 年1 月 23 日 04:48

由于磁盘故障，导致pd节点无法正常缩容，需要加上 -force 强制剔除故障pd吗？强制剔除有什么注意事项么

cat0dog · 2024 年1 月 23 日 04:51

加上–force 后完成了故障pd的剔除，感谢

dba远航 · 2024 年1 月 24 日 01:35

PD已经无法构成多数

ffeenn · 2024 年1 月 24 日 03:39

3个pd，强行删除一个PD基本没啥影响。如果扩缩容无法启动PD，可以尝试使用 PD-Recover 恢复PD集群， PD Recover 使用文档 | PingCAP 文档中心
按正常流程，先恢复PD，在恢复kv。