tikv节点故障，导致集群无法正常启动。

liujun6315 · 2024 年2 月 10 日 01:22

【 TiDB 使用环境】生产环境
【 TiDB 版本】
【复现路径】做过哪些操作出现的问题
【遇到的问题：问题现象及影响】
tikv节点故障导致集群无法启动
【资源配置】进入到 TiDB Dashboard -集群信息 (Cluster Info) -主机(Hosts) 截图此页面
【附件：截图/日志/监控】

昨天2月9日收到报警，有一台tikv节点宕机，然后我登入到集群测试可以读写，但是业务和开发反馈应用无法使用，大概等了不到两小时，出问题的物理机恢复，但是这台tikv节点还是无法使用，然后决定重启集群，重启操作进行到这台出问题的tikv节点无法通过出现如下报错。

这是集群拓扑，也是现在的集群状态。

通过查看日志sst文件丢失，然后再系统层面进行修复，修复完成后，再次启动提示还是无法解决。

现在想到两个处理方式
1.通过pd节点，把这台故障节点剔除掉，先恢复集群。
2.把这台故障节点的sst文件修复，然后恢复集群。

也看过相关的帖子，但是因为就这一套集群，现在操作怕出现集群无法恢复，想让有经验的大佬或者官方人员指导一下，谢谢大家了。

小龙虾爱大龙虾 · 2024 年2 月 10 日 01:31

先不用管有问题的Tikv，因为只坏了1个，先执行tiup cluster start tidb-pt -R tidb

裤衩儿飞上天 · 2024 年2 月 10 日 02:13

如果要特别紧急的处理，坏掉的节点先不要做任何操作，扩一个tikv节点，等所有副本都完整后，再去处理坏掉的节点
坏掉的节点，不管是磁盘损坏或者sst丢失，都可能有数据丢失，加新节点后，会自动补副本
应用不能使用是因为所有的tidb server 都挂了，检查下基础环境有没有问题，网络防火墙

xfworld · 2024 年2 月 10 日 07:02

在群里看过这个集群状态，很有可能会丢数据…

两个方式：

通过扩展资源的释放，扩展tikv 节点，看看数据副本是否能找回
如果副本丢失了，只能放弃数据了…

Jellybean · 2024 年2 月 11 日 00:44

优先恢复集群访问功能，这个主要是重启tidb节点。

集群可以访问后，强制下线原来down的那个tikv 节点，就可以再用相同的目录和端口扩容一个tikv节点。

由于你这个是生产集群，所以有任何疑问请和进度，请及时在这里反馈。