误删raft engine目录还能恢复吗(生产环境)

【TiDB 使用环境】生产环境
【TiDB 版本】v7.5.0
【操作系统】centos8.5
【部署方式】机器部署(cpu36核心,320GB内存,40T硬盘)
【集群数据量】每天百万
【集群节点数】4台物理设备,3个pd节点,3个tidb节点,3个tikv节点,2个tiflash节点
【问题复现路径】服务器raid卡损坏,两块硬盘损坏,重启后主节点tikv节点raft engine目录文件损坏,根据ai步骤删除了
【遇到的问题:问题现象及影响】无法启动tikv节点,报错raft engine not exists,且tidb节点也无法启动,无法进入 TiDB Dashboard
【资源配置】进入到 TiDB Dashboard -集群信息 (Cluster Info) -主机(Hosts) 截图此页面
【复制黏贴 ERROR 报错的日志】
【其他附件:截图/日志/监控】


无法删除

我勒个去,你这2块硬盘坏。正好是tidb server的3各节点。还是联系官方吧。找表妹

你不是有3个tikv吗?按理坏了一个,不应该影响使用啊,你tidb-server启动不了的原因是什么?你这种情况速度再扩容一个tikv节点就一点问题没有了。

tidb启动不了报错 还是那个17的tikv不可用

先让咱们这大佬先看看,不行的话再找官方 :joy:

3个坏1个,可以做缩容扩容,tidb不能启动是对的,因为现在tikv异常,不能启动tidb节点。因为启动tidb节点之后,就可能会有数据写入,影响系统。

这个应该是类似案例,但是前提得确定坏的那两块磁盘只影响这一个tikv

1 个赞

:joy:AI必须背锅~

另外2个的tikv节点是正常的吧

另外两个是正常的, 执行了缩容 还是不行,从昨天中午到现在了, 一直卡着, 看这个kv的store里面region的数量一直没有变动过

缩容不会动,因为节点文件已经删除了,进度会卡在那里。主要看扩容能不能扩容上去。

注意专栏里是用强制缩容

这不是info级别的日志吗?有error级别的吗?

现在要做的不是缩容,你一共3个tikv,缩不了的,现在要做的是扩容,尽快找个机器扩个tikv节点出来吧。

已经扩容了一台,

错误的那台kv节点已经强制缩容了,现在tidb节点还是无法启动, 还是在连接那台缩容掉的kv节点,报错日志:

@Kongdom

你发的这些报错日志都不影响启动的。有没有其他日志?

简单一点,重启集群吧,应该是配置还没刷新。 :thinking:

直接重新tiup cluster restart tidb-fhzh重启整个集群,刷新下整个集群的meta看下

已经重启了整个集群, tidb节点还是无法启动,我感觉根本原因是store里还有那个出错的tikv节点的信息

而且注意到另一台上面的region_size和leader_size数字在一直增长:

@tidb菜鸟一只 @Kongdom 谢谢关注

tidb节点起不来报什么错?最后的fatal日志发一下。


执行启动后一直循环报这个错,这个kv节点已经缩容掉了, 但是store里还有残留信息, 状态是Offline