产品缺陷:节点宕机kv 启动报错

【 TiDB 使用环境】生产环境
【 TiDB 版本】5.2.1
【复现路径】暂时没法复现
【遇到的问题:问题现象及影响】
tikv报错

【资源配置】进入到 TiDB Dashboard -集群信息 (Cluster Info) -主机(Hosts) 截图此页面
【附件:截图/日志/监控】
6 08:50:33.029 +08:00] [FATAL] [server.rs:403] [“panic_mark_file /bigdata/tidb-data/tikv-20160/panic_mark_file exists,
there must be something wrong with the db. Do not remove the panic_mark_file and force the TiKV node to restart.
Please contact TiKV maintainers to investigate the issue. If needed, use scale in and scale out to replace the TiKV node.
https://docs.pingcap.com/tidb/stable/scale-tidb-using-tiup”]

[FATAL] [server.rs:825] [“failed to start node: Engine(Other("[components/raftstore/src/store/fsm/store.rs:1051]:
Engine Engine(\"Corruption: block checksum mismatch: expected 1238286986,
got 2324967102 in /data1/tidb-data/tikv-20160/raft/5778734.sst offset 89001 size 59654\")"))”]

ERROR] [server.rs:1030] [“failed to init io snooper”] [err_code=KV:Unknown] [err=“"IO snooper is not started due to not compiling with BCC"”]

[2024/11/06 08:47:28.208 +08:00] [INFO] [mod.rs:479] [“encryption is disabled.”]
[2024/11/06 08:47:28.208 +08:00] [ERROR] [server.rs:1030] [“failed to init io snooper”] [err_code=KV:Unknown] [err=“"IO snooper is not started due to not compiling with BCC"”]
[2024/11/06 08:47:30.550 +08:00] [FATAL] [server.rs:1249] [“failed to create kv engine: Storage Engine Corruption: SST file is ahead of WALs”]

大概率是因为硬件问题导致 TiKV 数据块损坏,通过缩容+扩容 解决吧。

1 个赞

这台tikv有做过什么操作么,还是突然这样的?

也可以考虑升级

考虑升级吧,最近我也在考虑升级,眨眼一看都到 8了

啥操作也没干,就是发现挂了 ,然后重启

[quote=“TiDBer_YoAYBLgJ, post:6, topic:1034699”]
是发现挂了 ,然后重启
[/quote]对啊 一眨眼 更新的老快了

嗯嗯已经准备升级了

我贴的那个截图查询的有问题吗,没显示有数据块损坏呢

应该是这个sst文件损坏了

并且 sst文件 还超前于 WAL 文件(是不是开启异步写log了?)

最好是按建议进行缩容扩容。

参考这里看看

按照大佬说的扩缩容吧

kv 6个节点 三副本 现在只活着一个 ,扩缩容也没救吧

6个节点 3副本 只能死1个。只活一个,只有用备份恢复了

掉一个。整体没挂就好。应该是这一个宕机的时候文件损坏了。碰巧了。我这也遇到过。阿里云服务器有一台tikv突然宕机挂掉。过了1小时才恢复。然后他有自动加入集群。传输信息了。你这个就是宕机的时候意外文件损坏。 通过缩容 ,然后扩容恢复吧。先缩容掉。完全剔除之后,再扩容。不能先扩容,