TIKV启动失败,报错failed to start node: EngineTraits

为提高效率,请提供以下信息,问题描述清晰能够更快得到解决:
【 TiDB 使用环境】
【概述】tikv启动失败
【背景】服务器宕机
【现象】tikv启动失败,日志显示一直在试图启动
【业务影响】
【TiDB 版本】v4.0.0
【附件】

  1. TiUP Cluster Display 信息

  2. TiUP Cluster Edit Config 信息

  3. TiDB- Overview 监控

  • 对应模块日志(包含问题前后1小时日志)
    tikv的启动是错误日志:

    按照论坛中的类试问题处理, 找到错误日志中的region id,将其设置为 tombstone。但是在pd中查询region返回为null:
    image
    找不到store_id就没办法设置为tombstone,无法跳过。请求帮助。

如果日志不大的话,整个日志上传一下吧。

tikv.log (10.4 MB)
tikv日志。

tikv.log (10.4 MB)

  • 如果你需要获得快速 “加急”处理问题的权限,加快问题响应速度, 点击完成认证,获得“加急”处理问题的权限,方便你更快速地解决问题。

认证通过之后,在我的团队-全部主题中点击加急~

Hi~ 请问之前有做过哪些变更或者运维操作,导致 TiKV 节点异常的问题 ?

该节点宕机了,重启后启动就这样。

  1. 辛苦补充一下集群拓扑情况;
  2. 补充一下宕机的情况,实例数、节点数等信息;
  3. 提供时间线的 集群的操作 和 集群状态的情况。

集群的具体情况如下:


是2个tikv服务器,70和74,70是在服务器磁盘空间满了后服务自动退出,增加磁盘后服务启动成功,74是服务器故障,服务宕机后启动失败,出现以上的问题。

刚刚的信息有误,74这台服务器出现故障应该比较久了,应为当时没有影响业务,没有及时发现,运维人员刚刚在查看日志的时候,发现10月就出现这个问题了,但是因为是预生产系统,日志被定时清除了一部分,找不到最开始发生故障时的日志了。

如果是这个情况,我建议可以做一下 74 TiKV 节点的缩容,然后新扩容一个 TiKV 节点,这样处理最安全。另外需要检查一下对应的 region 的 table 的状态情况,可以通过 check table 做一下检查。

您说的检查对应region是错误日志中说到的region 2吗。 这个在pd中返回信息为null。

[2021/12/06 16:45:41.535 +08:00] [INFO] [mod.rs:335] ["starting working thread"] [worker=region-collector-worker]
[2021/12/06 16:45:41.537 +08:00] [INFO] [mod.rs:85] ["encryption: none of key dictionary and file dictionary are found."]
[2021/12/06 16:45:41.537 +08:00] [INFO] [mod.rs:374] ["encryption is disabled."]
[2021/12/06 16:45:41.701 +08:00] [INFO] [future.rs:136] ["starting working thread"] [worker=gc-worker]
[2021/12/06 16:45:41.701 +08:00] [INFO] [mod.rs:335] ["starting working thread"] [worker=lock-collector]
[2021/12/06 16:45:41.736 +08:00] [INFO] [mod.rs:170] ["Storage started."]
[2021/12/06 16:45:41.737 +08:00] [INFO] [mod.rs:335] ["starting working thread"] [worker=split-check]
[2021/12/06 16:45:41.738 +08:00] [INFO] [node.rs:351] ["start raft store thread"] [store_id=916097]
[2021/12/06 16:45:41.738 +08:00] [INFO] [peer.rs:147] ["create peer"] [peer_id=2513660] [region_id=2]
[2021/12/06 16:45:41.738 +08:00] [FATAL] [server.rs:576] ["failed to start node: EngineTraits(Other(\"[components/raftstore/src/store/fsm/store.rs:812]: \\\"[components/raftstore/src/store/peer_storage.rs:385]: [region 2] entry at apply index 1221178 doesn\\\\\\'t exist, may lose data.\\\"\"))"]

可以参考一下这个帖子,看一下 region 丢失,通过 tikv-ctl 做一下 bad region 的操作。机器挂掉了,tikv无法启动, 集群异常不可用

此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。