TIKV遭遇down机,无法启动

昨天在使用同步工具导入数据的时候,突然发现同步工具中断,提示目标端不可用。
然后在TIDBserver上通过 tiup cluster display命令查看集群。发现有三台tikv属于down机状态。

随后检查了TIDB的日志,发现

error="rpc error: code = Unavailable desc = connection error: desc = "transport: Error while dialing dial t
cp 10.26.51.139:20160: connect: connection refused\

然后又登陆了有问题的TIKV,发现有这类错误:

[FATAL] [server.rs:407] [“panic_mark_file /httx/data1/data/tikv-20160/panic_mark_file exists, there must be something wrong with the db. Do not remove the panic_mark_file and force the TiKV node to restar
t. Please contact TiKV maintainers to investigate the issue. If needed, use scale in and scale out to replace the TiKV node. https://docs.pingcap.com/tidb/stable/scale-tidb-using-tiup”]

随后,反复启动tidb集群。均不成功。
例如:通过这个命令 tiup cluster start pay_tidb --wait-timeout 600

显示:
Error: failed to start tikv: failed to start: 10.26.51.139 tikv-20160.service, please check the instance’s log(/httx/data1/deploy/tikv-20160/log) for more detail.: timed out waiting for port 20160 to be started after 10m0s

请老师能够帮忙看一下,具体是什么问题,有没有什么好的解决办法

除了 10.26.51.139:20160 这个节点实例有问题外,另外两个节点是否存在问题?

然后这个节点上的错误日志是什么?

可以按照节点实例选择的方式,一个个启动,排除掉坏的节点,优先考虑扩容吧

如果 tikv 三节点都出了问题,只能采用 unsave recover来恢复节点服务了,但是会丢数据

可以参考:

老师,其它两台也是这个样子的。现在我该怎么把集群给拉起来。我试过一台一台的拉。是用整体起集群的方式,和用 systemctl start tikv-20160.service 这种方式,均不成功。

tikv的日志发上来看看

哪你要丢数据了,按照我给的恢复方案,执行恢复吧

好的,老师。这是所有的出故障当天的日志。

tikv.rar (4.0 MB)

老师,我想问一下两个问题哦,
1.这种情况是什么情况造成的?是不是我批量写入数据造成的。了解了这些,以后可以避免再出同样的问题。
2.TIDB的6.1.5版本是不是较于5.4.3版本上会有很大性能上的提升和更加的稳定。

老师,我是八台TIKV,三台TIKV出现的down机。用您提供的方式这样也会丢数据吗?

要三个副本都刚好在三个节点上,就凉了

关键帖子也没说你的配置情况阿,就说出毛病了…

6.1.5 是 LTS,实现了很多新的特性,能够减免一些运维上操作的困难点,对于性能上有很大的优化,特别是 OOM, 至于 你的情况,还没办法判断

不好意思,没贴出来我的配置,是三台TIDB server ,PD安装在TIDB server上。然后8台TIKV。
全部24C,64GB内存。老师,如果运气好的话,数据刚好不在那三台,可以用哪种方式把集群给启动起来?

tikv.rar (4.0 MB)
老师,这是其中一台 down掉的tikv的失败的日志。

能提供集群的 display 的截图吗,日志中出现大量的昨天开始就出现store 7 连接中断的日志。恢复起来比较费劲。你这是生产环境吗。

不知道你的配置和集群情况,无法回答

怀疑他 store7 是下线失败的实力。

年前在某环境,日志明确报数据损坏,搞过unsafe recover 还没成功, :innocent:


老师,是这个,现在集群已经拉不起来了

现在就是不知道为什么这个store 7会下线,或者有问题。这个很奇怪。是因为我在初始化数据吗?是不是我从硬件上也要找找问题。


关键点给你找出来了,你这个时间点执行过什么,然后这台实力重启了。

这个时间点,我在持续不间断的同步数据,数据同步了好几天了。其它的操作没有做。运维的同事装zabbix监控应该也是上午加的。这个时间点他应该也没操作什么。因为这个时间点大家都去吃饭了。

老师,我要不要把store7所在那台tikv机器的日志截给您?