【 TiDB 使用环境】生产环境
【 TiDB 版本】
【复现路径】机房断电
【遇到的问题:问题现象及影响】
1.机房断电后启动集群失败,提示pd结点无法启动
2.登录该结点查看日志,提示snapshot file不存在
3.按照日志给出的文件目录查看,存在名称类似的文件,但没有完全相同的文件
4.尝试了社区以往类似故障经验给出的使用pd-recover的方法,按照pd-recover文档进行操作,关闭集群并启动了另一个pd结点,在故障结点执行pd-recover修复元数据时,出现预期之外的报错
【资源配置】
【附件:截图/日志/监控】
pd.log (136.0 KB)
文件不是损坏是不存在吧,要读取的是000000000055733b.snap.db,但实际只有一个000000000000007e-000000000055733b.snap
WalterWj
(王军 - PingCAP)
4
如果多数 pd 还在就强制扩缩容 修复 pd,如果多数都挂了,pd 就用 recover 重做下吧。
tiup cluster display tidb-xxx看下集群状态,感觉可以直接把192.168.10.4机器上的pd直接给scale-in掉
现在整个集群都停了?起码你192.168.10.2上的pd起着吧?
执行重启命令,走到192.168.10.2启动后,遇到192.168.10.4启动失败就全部停了,此时查看集群状态就是全停