tikv无法启动，日志报错"failed to create kv engine: Storage Engine Corruption: Can't access /25610279.sst: IO error"

mono · 2023 年7 月 4 日 09:32

你那些服务器上不存在的，丢失的。就是有问题的。找出这些文件对应region。不过你这奇怪啊，每个节点上都有问题。会不会没有可用的副本。只能试试看吧！

wfxxh · 2023 年7 月 4 日 09:39

我执行bad-region命令也报错；

执行region-properties获取对应的sst也报错。

目前的状态是陷入死循环了

tidb菜鸟一只 · 2023 年7 月 4 日 09:40

wfxxh · 2023 年7 月 4 日 09:41

5个节点的盘同时出问题的可能性基本没有吧。。

tidb菜鸟一只 · 2023 年7 月 4 日 09:55

你所有节点启动都报sst找不到吗？

wfxxh · 2023 年7 月 4 日 09:55

对所有节点

Billmay表妹 · 2023 年7 月 4 日 10:13

你原来有多少个节点呢！

Kongdom · 2023 年7 月 4 日 10:23

检查一下防火墙吧，我遇到过一次重启后防火墙自动开启了，然后集体罢工了~

wfxxh · 2023 年7 月 4 日 10:24

正常。

Billmay表妹 · 2023 年7 月 4 日 10:25

这个问题可能是由于硬件问题导致的，可以尝试以下步骤来解决：

首先，检查该节点的硬件是否正常，例如磁盘是否正常，网络是否正常等等。如果硬件有问题，需要先解决硬件问题。
如果硬件正常，可以尝试重启整个集群，看看是否可以解决问题。可以使用以下命令重启整个集群：
```
tiup cluster restart <cluster-name>
```
其中，<cluster-name> 是你的 TiDB 集群的名称。
如果重启集群后仍然无法解决问题，可以尝试清理掉故障节点上的 region peer，然后重启 PD 集群和正常的 TiKV 节点。具体步骤如下：
- 清理掉故障节点上的 region peer：
```
tiup cluster exec <cluster-name> --command="pd-ctl -u <pd-address> operator add remove-down-peer <region-id> <store-id>"
```
  其中，<pd-address> 是 PD 的地址，<region-id> 是要清理的 region 的 ID，<store-id> 是故障节点的 ID。
- 重启 PD 集群：
```
tiup cluster restart <cluster-name> -R pd
```
- 启动正常的 TiKV 节点：
```
tiup cluster start <cluster-name> -N <normal-tikv-address>
```
  其中，<normal-tikv-address> 是正常的 TiKV 节点的地址。
如果以上步骤都无法解决问题，可以尝试联系 TiDB 官方技术支持。

Timber · 2023 年7 月 4 日 10:46

用tikv-ctl ldb -db=data/db repair修复试试

tidb狂热爱好者 · 2023 年7 月 4 日 14:14

如果是生产付费找官方

zhanggame1 · 2023 年7 月 5 日 00:35

同时所有tikv出问题不应该吧

h5n1 · 2023 年7 月 5 日 01:09

应该还是存储文件系统上有些问题

wfxxh · 2023 年7 月 10 日 04:03

官方回复：你必须用商业版，才能给你看。

wfxxh · 2023 年7 月 10 日 04:05

不知道哪的问题，这个现象在我们迁移集群时又出现一次。批量写数据时，突然就sst丢失了。服务及服务器都没重启过。可能大约的确是5.4.3版本的bug。

mono · 2023 年7 月 10 日 07:43

开源版本也提供商业支持吧！