集群重启的时候pd节点启动失败日志如上图所示提示找不到00000000000dbba9.snap.db
文件
根据日志提示在对应目录找到了一个
0000000000000013-00000000000dbba9.snap文件
其他能够正常启动的pd节点的相同目录下也跟故障节点相同00000000000000xx-00000000000xxxxx.snap文件并没有以snap.db结尾的文件
删除节点后再增加节点可以修复但是集群停止再启动后有很大概率会再次出现
请教一下是什么原因导致的 除了删除节点再增加外还有甚么其他办法修复这个错误
考试没答案
(Ti D Ber P Kfity Gq)
2
网上百度的案例,数据文件损坏,需要了解下etcd相关内容。PD其实就是集成了etcd。Etcd故障处理 - 知乎
考试没答案
(Ti D Ber P Kfity Gq)
3
您是一个节点宕机无法启动,还是3个节点都宕机无法启动???
复制文件0000000000000013-00000000000dbba9.snap 到其他地方备份,然后删除重启试一下
有一个告警提示exceeded recommended request limit 不知道有没有影响
考试没答案
(Ti D Ber P Kfity Gq)
8
您把三个PD的 member/spap目录下的内容都 ls -al 。我看下
删除了故障节点下的所有snap文件后节点启动起来了,多谢 请教一下什么原理呢?
考试没答案
(Ti D Ber P Kfity Gq)
11
内置etcd。您看下etcd的故障恢复。我这手动删除一个snap文件,重启后就恢复了。
一共三个节点其中第二张图是故障节点(已经恢复后的数据)
system
(system)
关闭
13
此话题已在最后回复的 60 天后被自动关闭。不再允许新回复。