tikv节点故障,导致集群无法正常启动。

【 TiDB 使用环境】生产环境
【 TiDB 版本】
【复现路径】做过哪些操作出现的问题
【遇到的问题:问题现象及影响】
tikv节点故障导致集群无法启动
【资源配置】进入到 TiDB Dashboard -集群信息 (Cluster Info) -主机(Hosts) 截图此页面
【附件:截图/日志/监控】

昨天2月9日收到报警,有一台tikv节点宕机,然后我登入到集群测试可以读写,但是业务和开发反馈应用无法使用,大概等了不到两小时,出问题的物理机恢复,但是这台tikv节点还是无法使用,然后决定重启集群,重启操作进行到这台出问题的tikv节点无法通过出现如下报错。

这是集群拓扑,也是现在的集群状态。

通过查看日志sst文件丢失,然后再系统层面进行修复,修复完成后,再次启动提示还是无法解决。

现在想到两个处理方式
1.通过pd节点,把这台故障节点剔除掉,先恢复集群。
2.把这台故障节点的sst文件修复,然后恢复集群。

也看过相关的帖子,但是因为就这一套集群,现在操作怕出现集群无法恢复,想让有经验的大佬或者官方人员指导一下,谢谢大家了。

先不用管有问题的Tikv,因为只坏了1个,先执行tiup cluster start tidb-pt -R tidb

如果要特别紧急的处理,坏掉的节点先不要做任何操作,扩一个tikv节点,等所有副本都完整后,再去处理坏掉的节点
坏掉的节点,不管是磁盘损坏或者sst丢失,都可能有数据丢失,加新节点后,会自动补副本
应用不能使用是因为所有的tidb server 都挂了,检查下基础环境有没有问题,网络 防火墙

在群里看过这个集群状态,很有可能会丢数据…

两个方式:

  1. 通过扩展资源的释放,扩展tikv 节点,看看数据副本是否能找回
  2. 如果副本丢失了,只能放弃数据了…

优先恢复集群访问功能,这个主要是重启tidb节点。

集群可以访问后,强制下线原来down的那个tikv 节点,就可以再用相同的目录和端口扩容一个tikv节点。

由于你这个是生产集群,所以有任何疑问请和进度,请及时在这里反馈。