tikv加索引时挂了一个节点,一直无法启动

小王同学Plus · 2021 年12 月 7 日 06:51

已经在排查中了。

dbaspace · 2021 年12 月 7 日 06:59

直接把该节点下掉

zzw6776 · 2021 年12 月 7 日 07:00

好的看下需要保存现场吗不需要我就缩容扩容了

dbaspace · 2021 年12 月 7 日 07:02

这个应该region的缓存问题，一会就自动加载，如果异常可以通过 curl 清理下会自动恢复

zzw6776 · 2021 年12 月 7 日 07:03

都异常4天了- -

dbaspace · 2021 年12 月 7 日 07:03

我也遇到很多无法解释的问题，要下线的节点磁盘吞吐能达到500MB/S 直接影响了服务器上的另外一个TIKV 直接关闭异常节点+驱逐慢慢搞

dbaspace · 2021 年12 月 7 日 07:06

如果重业务，不建议集群用的版本这么新呀，，目前我还在3和4版本一切稳定为主，出问题了在升级版本

zzw6776 · 2021 年12 月 7 日 07:08

才开始用呢- - 直接布的最新版本之前就踩了tidbserver内存溢出的坑还得调整回以前的分析参数

dbaspace · 2021 年12 月 7 日 07:10

可以控制会话级别的内存，可以考虑用4.0.14(360/知乎大佬建议),我用的有4.0.8、4.0.9 3.0.13 3.0.19 这几个版本供参考

dbaspace · 2021 年12 月 7 日 07:18

这是我遇到好几次奇怪问题。找过官方也没定位到

小王同学Plus · 2021 年12 月 7 日 07:24

没缩容吧。。。

通过 dashboard 把所有 tikv 日志用 97957472 筛选导出后，然后对这个节点进行缩容就可以了。

先说下初步判断：
第一次 panic 是 [FATAL] [lib.rs:465] [“unexpected error getting unapplied entries [5623, 6339): Store(Compacted), raft_id: 97957474, region_id: 97957472”]，这次 panic 导致重启后触发了另一个 bug，https://github.com/tikv/tikv/pull/10501

需要提供的信息：

通过 dashboard 把所有 tikv 日志用 97957472 筛选，导出相关信息。我们继续跟进下

workaround 方法：
对该节点缩容即可。

zzw6776 · 2021 年12 月 7 日 07:33

那个挂掉的节点dashboard 无法搜索日志了
这是剩下的节点3号搜索出来的日志
logs (3).zip (37.3 KB)

话说panic是个什么概念有文章解释吗

小王同学Plus · 2021 年12 月 7 日 07:38

find . -name “tikv.log*” |xargs grep “97957472”

那就在所有 tikv 节点查一下这个信息吧，这样全面一些。

可以网上搜索下，基本上是程序异常了，很多情况下是程序没有考虑到的点，bug 居多。

zzw6776 · 2021 年12 月 7 日 07:46

h148-2.zip (15.2 KB) h147-2.zip (30.8 KB) h146-2.zip (6.7 KB)

小王同学Plus · 2021 年12 月 7 日 07:50

好的感谢感谢。目前不需要什么信息了。

gengliqi-PingCAP · 2021 年12 月 9 日 05:47

https://github.com/tikv/tikv/issues/11618 该问题已经定位了，预期 5.2.4 会修复这个问题

system · 2022 年10 月 31 日 19:25

此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。