tikv 启动异常

rebelsre · 2024 年5 月 27 日 08:16

【 TiDB 使用环境】生产环境 /测试/ Poc
【 TiDB 版本】4.0.10
【复现路径】
【遇到的问题：问题现象及影响】
tikv 启动异常，报错如下：

[2024/05/27 16:07:51.797 +08:00] [INFO] [store.rs:925] ["region is applying snapshot"] [store_id=4] [region="id: 25193 start_key: 7480000000000000FF365F698000000000FF0000040380000000FF0000000004000000FF006082F5FF038000FF000004EEBEC50000FD end_key: 7480000000000000FF365F698000000000FF0000040380000000FF0000000004000000FF0060830014038000FF00000523062B0000FD region_epoch { conf_ver: 1325 version: 522 } peers { id: 12589504 store_id: 5 } peers { id: 12634220 store_id: 4 } peers { id: 13778883 store_id: 2134051 }"]
[2024/05/27 16:07:51.797 +08:00] [INFO] [peer.rs:180] ["create peer"] [peer_id=12634220] [region_id=25193]
[2024/05/27 16:07:51.799 +08:00] [FATAL] [server.rs:590] ["failed to start node: Other(\"[components/raftstore/src/store/peer_storage.rs:504]: [region 25193] entry at 33014 doesn\\'t exist, may lose data.\")"]

region 信息：

» region 25193
{
  "id": 25193,
  "start_key": "7480000000000000FF365F698000000000FF0000040380000000FF0000000004000000FF006082F5FF038000FF000004EEBEC50000FD",
  "end_key": "7480000000000000FF365F698000000000FF0000040380000000FF0000000004000000FF0060830014038000FF00000523062B0000FD",
  "epoch": {
    "conf_ver": 1338,
    "version": 522
  },
  "peers": [
    {
      "id": 13778883,
      "store_id": 2134051
    },
    {
      "id": 17455504,
      "store_id": 5
    }
  ],
  "leader": {
    "id": 13778883,
    "store_id": 2134051
  },
  "written_bytes": 0,
  "read_bytes": 0,
  "written_keys": 0,
  "read_keys": 0,
  "approximate_size": 47,
  "approximate_keys": 661611
}

【资源配置】进入到 TiDB Dashboard -集群信息 (Cluster Info) -主机(Hosts) 截图此页面
【附件：截图/日志/监控】
查看文档 TiKV Control 使用说明 | PingCAP 归档文档站
其中 remove-peer 是需要把全部的 store_id 给处理掉吗
其次在故障 tikv 机器上面执行 tikv-ctl --db /path/to/tikv/db tombstone -p 127.0.0.1:2379 -r <region_id> 有如下报错

thread 'main' panicked at 'called `Result::unwrap()` on an `Err` value: RocksDb("IO error: No such file or directoryWhile opening a file for sequentially reading: /cloud/data5/tikv-20160/CURRENT: No such file or directory")', src/libcore/result.rs:1188:5
note: run with `RUST_BACKTRACE=1` environment variable to display a backtrace.
Error: exit status 101
Error: run `/root/.tiup/components/ctl/v4.0.10/ctl` (wd:/root/.tiup/data/UDxZpT0) failed: exit status 1

查看正常节点都没有 CURRENT 相关目录

小龙虾爱大龙虾 · 2024 年5 月 27 日 08:18

怎么出现这种情况的，现在整个集群啥情况呢，是只有一个 tikv 不行了吗

rebelsre · 2024 年5 月 27 日 08:21

不知道为啥挂了一个 tikv 起不来，报错如上，集群其他节点组件均正常

rebelsre · 2024 年5 月 27 日 08:51

集群是有5个 tikv 的，现在这个起不来，可以直接先缩容掉再扩容进来吗，试过直接 mv 目录也是起不来

xfworld · 2024 年5 月 27 日 09:00

可以的，先缩在扩，最好做个region leader 驱逐，手动驱逐掉这个坏节点上的 leader … 在缩容…

Kongdom · 2024 年5 月 27 日 09:57

mv 目录应该是权限不够吧。

tidb菜鸟一只 · 2024 年5 月 28 日 01:11

现在集群正常使用的话，可以把这个节点缩容掉再扩容。

zhaokede · 2024 年5 月 28 日 01:20

mark下，下次遇到同样问题可以参考

rebelsre · 2024 年5 月 28 日 02:36

尴尬了，现在 dumpling 导出数据出现这种问题，有什么解决方案吗

像风一样的男子 · 2024 年5 月 28 日 02:56

扩容缩容完全结束了？

tidb狂热爱好者 · 2024 年5 月 28 日 03:02

我感觉你业务数据丢了

rebelsre · 2024 年5 月 28 日 03:41

原本进程就是挂的，缩容一下就完了，扩容也是很快就完成，但看数据是很不平衡

另外 tikv 也频繁出现无法访问的现象，报错应该是这个导致的，不是每次都必现

像风一样的男子 · 2024 年5 月 28 日 05:10

你只是命令执行完了 region根本没有迁移完，等region全部迁移结束数据平衡后才算扩容结束。

rebelsre · 2024 年5 月 28 日 06:01

请问有什么方法可以加速这个 region 迁移吗，看起来自动跑非常慢

Kongdom · 2024 年5 月 28 日 07:17

可以参考专栏里的方法

system · 2024 年7 月 27 日 07:17

此话题已在最后回复的 60 天后被自动关闭。不再允许新回复。