tiflash第七次起不来,4.0.13升级5.2.2后,tiflash起不来,内存到10%就自动挂了无限重启

3台tiflash,每台内存72G,使用不停机升级,–force,两台tiflash没问题,最后一台起不来,无OOM,内存到10%就重启:


image

这tiflash宕机 我们是什么情况都遇到过了,我也是服了,之前说4.0不稳定因素太多不好断定,这次可好,升级5.2.2还是这问题,服了

日志如下:
tiflash-log.tar.gz (18.4 MB)

1 个赞

[2021/11/06 01:25:19.048 +00:00] [FATAL] [lib.rs:463] ["[region 1276671] 1707276 commit state jump backward (14319, 36) -> (14100, 36)"]

从日志看来,无限重启是由于上面的报错造成的,看来是 raft 状态机出现问题了,相关 issue:
https://github.com/tikv/tikv/issues/10533

目前这个问题出现后的处理方案只能是缩容这个节点并重新扩容,非常抱歉。我们会尽快修复这个 bug。

1 个赞

这个bug 会在什么情况下出现,怎么避免,为什么我们3个tiflash节点,只有一个有问题

1 个赞

这个 bug 是小概率触发,和 store (tikv或者 tiflash) 的停机时机有关。如果您之前 tiflash 已经由于其他问题,比如 OOM 等原因已经处于异常状态,触发的概率更大一下。在正常情况触发概率较小。

如果方便,能否问一下咱们 tiflash 单节点 数据量 和 机器内存 是多大?

1 个赞

之前集群都是正常状态,还在提供服务,进行了不停机升级,其他节点都起来了,就这个tiflash起不来,这是升级自己启动的,和停机时机有关?其他两个并没有出现这个问题

单节点tiflash 数据量100G,region 4500个左右

1 个赞

之前集群都是正常状态,还在提供服务,进行了不停机升级,其他节点都起来了,就这个tiflash起不来,这是升级自己启动的,和停机时机有关?其他两个并没有出现这个问题

是概率性事件,不是指操作时机的问题,不是所有节点都一定会遇到。我们尽快修复,非常抱歉。

1 个赞

此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。