机房停电后PD结点无法启动

【 TiDB 使用环境】生产环境
【 TiDB 版本】
【复现路径】机房断电
【遇到的问题:问题现象及影响】
1.机房断电后启动集群失败,提示pd结点无法启动


2.登录该结点查看日志,提示snapshot file不存在

3.按照日志给出的文件目录查看,存在名称类似的文件,但没有完全相同的文件

4.尝试了社区以往类似故障经验给出的使用pd-recover的方法,按照pd-recover文档进行操作,关闭集群并启动了另一个pd结点,在故障结点执行pd-recover修复元数据时,出现预期之外的报错
image
【资源配置】


【附件:截图/日志/监控】
pd.log (136.0 KB)

虚拟机? 还是盘有问题 怎么感觉文件损坏了。

文件不是损坏是不存在吧,要读取的是000000000055733b.snap.db,但实际只有一个000000000000007e-000000000055733b.snap

如果多数 pd 还在就强制扩缩容 修复 pd,如果多数都挂了,pd 就用 recover 重做下吧。

tiup cluster display tidb-xxx看下集群状态,感觉可以直接把192.168.10.4机器上的pd直接给scale-in掉

缩容是要结点能启动吧,但是它现在启动不了

集群现在能用吗 还剩几个pd活着?

集群现在启动不了

现在整个集群都停了?起码你192.168.10.2上的pd起着吧?

执行重启命令,走到192.168.10.2启动后,遇到192.168.10.4启动失败就全部停了,此时查看集群状态就是全停

你单独吧10.2的pd启动,然后参照下面的步骤恢复其他两个pd节点
专栏 - 使用pd-recover 恢复pd 多数节点故障的场景 | TiDB 社区

1 个赞