tikv节点不断重启,failed to open raft engine

【 TiDB 使用环境】生产环境
【 TiDB 版本】6.5.1
【复现路径】 tiup cluster reload
【遇到的问题:问题现象及影响】重启报错:metric tikv_raftstore_region_count{type=“leader”} not found
【资源配置】
【附件:截图/日志/监控】

这个节点重建吧,省事儿。看checksum不一致,是不是磁盘文件损坏了

具体操作如何?

tikv有问题就是扩容缩容

先缩容再扩容

先扩容一个节点,这个故障节点不管,就关着就行。等pd-ctl里面这个故障节点的region数变成0,状态变成tombstone后,删掉这个节点的目录就可以。

1 个赞

一般什么情况下,会导致tikv出问题。比如什么操作。

这个时候就缩容,然后再重新扩容吧

TiKV 节点不断重启并且报错 “failed to open raft engine” 通常意味着 Raft 引擎在启动时遇到了问题。这可能是由于以下几种原因造成的:

  1. 磁盘空间不足:TiKV 需要足够的磁盘空间来存储数据。如果磁盘空间不足,Raft 引擎可能无法正常打开。

  2. 文件系统错误:磁盘或文件系统可能存在错误,导致 TiKV 无法读写数据。

  3. 配置问题:TiKV 的配置可能存在问题,例如数据目录设置不正确,或者某些参数配置不当。

  4. 数据损坏:TiKV 的数据可能已经损坏,这可能是由于硬件故障、突然断电或其他原因引起的。

为了解决这个问题,你可以尝试以下几个步骤:

  • 检查磁盘空间:使用 df -h 命令检查 TiKV 数据目录所在的磁盘是否有足够的空间。
  • 检查文件系统:使用 fsck 命令检查文件系统是否有错误。
  • 重新配置 TiKV:确保 TiKV 的配置文件正确无误,特别是数据目录的路径。
  • 恢复数据:如果数据损坏,你可能需要从备份中恢复数据,或者使用工具如 tikv-tools 来修复损坏的数据。

如果以上步骤都无法解决问题,你可能需要查看 TiKV 的日志文件以获取更详细的错误信息,或者在 TiKV 的社区论坛寻求帮助。

如果是因为数据损坏导致的问题,你可能需要运行一些诊断命令来检查和修复数据。例如,你可以使用 tikv-ctl 工具来检查和修复 TiKV 的数据:

# 检查数据
tikv-ctl checkdb --data-dir /path/to/your/tikv/data

# 修复数据
tikv-ctl recoverdb --data-dir /path/to/your/tikv/data

请注意,在执行这些操作之前,最好先备份你的数据,以防万一。

可否用其他2个副本的数据来修复坏的节点

可以啊,多数副本还是存在的,数据又没有丢失

缩容,扩容中的扩容阶段就是根据其他2个副本的数据修复坏节点的数据。