【 TiDB 使用环境】生产环境
【 TiDB 版本】
【复现路径】做过哪些操作出现的问题
【遇到的问题:问题现象及影响】
tikv节点故障导致集群无法启动
【资源配置】进入到 TiDB Dashboard -集群信息 (Cluster Info) -主机(Hosts) 截图此页面
【附件:截图/日志/监控】
昨天2月9日收到报警,有一台tikv节点宕机,然后我登入到集群测试可以读写,但是业务和开发反馈应用无法使用,大概等了不到两小时,出问题的物理机恢复,但是这台tikv节点还是无法使用,然后决定重启集群,重启操作进行到这台出问题的tikv节点无法通过出现如下报错。
这是集群拓扑,也是现在的集群状态。
通过查看日志sst文件丢失,然后再系统层面进行修复,修复完成后,再次启动提示还是无法解决。
现在想到两个处理方式
1.通过pd节点,把这台故障节点剔除掉,先恢复集群。
2.把这台故障节点的sst文件修复,然后恢复集群。
也看过相关的帖子,但是因为就这一套集群,现在操作怕出现集群无法恢复,想让有经验的大佬或者官方人员指导一下,谢谢大家了。