【TiDB 使用环境】生产环境
【TiDB 版本】v7.5.0
【操作系统】centos8.5
【部署方式】机器部署(cpu36核心,320GB内存,40T硬盘)
【集群数据量】每天百万
【集群节点数】4台物理设备,3个pd节点,3个tidb节点,3个tikv节点,2个tiflash节点
【问题复现路径】服务器raid卡损坏,两块硬盘损坏,重启后主节点tikv节点raft engine目录文件损坏,根据ai步骤删除了
【遇到的问题:问题现象及影响】无法启动tikv节点,报错raft engine not exists,且tidb节点也无法启动,无法进入 TiDB Dashboard
【资源配置】进入到 TiDB Dashboard -集群信息 (Cluster Info) -主机(Hosts) 截图此页面
【复制黏贴 ERROR 报错的日志】
【其他附件:截图/日志/监控】
无法删除
舞动梦灵
(Ti D Ber Nckmz Hmh)
2
我勒个去,你这2块硬盘坏。正好是tidb server的3各节点。还是联系官方吧。找表妹
你不是有3个tikv吗?按理坏了一个,不应该影响使用啊,你tidb-server启动不了的原因是什么?你这种情况速度再扩容一个tikv节点就一点问题没有了。
tidb启动不了报错 还是那个17的tikv不可用
Kongdom
(Kongdom)
6
3个坏1个,可以做缩容扩容,tidb不能启动是对的,因为现在tikv异常,不能启动tidb节点。因为启动tidb节点之后,就可能会有数据写入,影响系统。
这个应该是类似案例,但是前提得确定坏的那两块磁盘只影响这一个tikv
1 个赞
另外两个是正常的, 执行了缩容 还是不行,从昨天中午到现在了, 一直卡着, 看这个kv的store里面region的数量一直没有变动过
Kongdom
(Kongdom)
10
缩容不会动,因为节点文件已经删除了,进度会卡在那里。主要看扩容能不能扩容上去。
注意专栏里是用强制缩容
这不是info级别的日志吗?有error级别的吗?
现在要做的不是缩容,你一共3个tikv,缩不了的,现在要做的是扩容,尽快找个机器扩个tikv节点出来吧。
已经扩容了一台,
错误的那台kv节点已经强制缩容了,现在tidb节点还是无法启动, 还是在连接那台缩容掉的kv节点,报错日志:
Kongdom
(Kongdom)
15
你发的这些报错日志都不影响启动的。有没有其他日志?
简单一点,重启集群吧,应该是配置还没刷新。 
直接重新tiup cluster restart tidb-fhzh重启整个集群,刷新下整个集群的meta看下
已经重启了整个集群, tidb节点还是无法启动,我感觉根本原因是store里还有那个出错的tikv节点的信息
而且注意到另一台上面的region_size和leader_size数字在一直增长:
tidb节点起不来报什么错?最后的fatal日志发一下。
执行启动后一直循环报这个错,这个kv节点已经缩容掉了, 但是store里还有残留信息, 状态是Offline