【救急】tikv panic_mark_file导致节点无法启动

【 TiDB 使用环境`】生产环境
【 TiDB 版本】v5.3.1
【遇到的问题】
panic_mark_file /data1/deploy2/install/data/tikv-20160/panic_mark_file exists, there must be something wrong with the db. Do not remove the panic_mark_file and force the TiKV node to restart.
节点突然down,无法再启动。

messages第一次fail报错信息:


【复现路径】磁盘空间满了,集群停止,排查发现部分个别节点已出现 panic_mark_file问题,重启集群无法正常启动
【问题现象及影响】
tikv无法启动

使用pd-ctl查看region分布状况,只分布在其中的3个store节点上。
region分布文件:region-location.log (734.8 KB)

1 个赞

可能是磁盘空间无法满足tikv启动需要的大小,清理下空间再试试?

1 个赞

已清理,目前可用1.4T,还是无法启动

1 个赞

image
目前集群无法正常启动,单独启动tidb也不行,可否帮忙再看看,还需要哪些调试信息,论坛上其他的人的现象都不太一样

1 个赞

可能有sst文件损坏了,可以用tikv-ctl bad-ssts扫描下
https://docs.pingcap.com/zh/tidb/stable/tikv-control#打印损坏的-sst-文件信息

1 个赞


指令执行时间1分钟左右,无错误信息,不知道哪儿出的问题。

执行查看bad-region指令,很多错误信息,目前集群就一个kv节点存活,请问如何操作可以先让集群启动起来?

bad-regions.zip (489.4 KB)

1 个赞

region-location.zip (71.5 KB)
目前仅剩store为1的kv,查看region分布状况发现1上面有所有的,请问这种状况适用与【SOP 系列 18】TiUP 环境恢复 TiKV 副本
这个上面说到的恢复情况吗?

只能初始化了。

请问这个数据找不回来了吗,或者部分找回来

需要确认 region 副本丢失情况,三副本都丢失,那么数据无法找回;两副本数据丢失,可部分找回

参考下这篇文章吧 专栏 - TiDB集群恢复之TiKV集群不可用 | TiDB 社区

另外也可以在论坛中搜索一下,仅剩下单个 tikv 节点存活的示例还是比较多的

好的,谢谢,有找过,但是不敢轻易尝试,现在没办法就试下。

panic-mark-file文件的作用是什么呢?

1 个赞

此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。