TiDB 6.1.0 版本 TiFlash 异常重启

Hacker_ojLJ8Ndr · 2022 年6 月 24 日 02:39

生产环境，前一天升级完6.1.0并开启动态裁剪模式，夜里跑批的时候所有的tiflash节点报错无法分配内存，导致服务器重启，重启后关闭了动态裁剪模式。环境为tikv和tiflash混合部署，今天没有出现内存无法分配的报错，但出现了以下报错，只有一个tiflash节点出现了问题，且这个节点没有配置numa，其它混合部署的节点配置了numa。

【 TiDB 版本】
6.1.0
【遇到的问题】
夜里跑批，tiflash反复重启，报错如下：
tiflash_stderr.log ：
Logging debug to /data01/deploy/log/tiflash.log
Logging errors to /data01/deploy/log/tiflash_error.log
deprecated configuration, log-file has been moved to log.file.filename
override log.file.filename with log-file, “/data01/deploy/log/tiflash_tikv.log”
libc++abi: terminate_handler unexpectedly threw an exception
Logging debug to /data01/deploy/log/tiflash.log
Logging errors to /data01/deploy/log/tiflash_error.log
deprecated configuration, log-file has been moved to log.file.filename
override log.file.filename with log-file, “/data01/deploy/log/tiflash_tikv.log”

tiflash.log：

【处理】
问题节点强制缩容后再扩容没再报错，并添加了numa绑定。

yilong · 2022 年6 月 28 日 02:10

tikv 和 tiflash 混合部署的资源情况如何？ cpu 和内存是多少？
麻烦上传下完整的 tiflash.log 日志

Hacker_ojLJ8Ndr · 2022 年6 月 28 日 03:33

clinic收集后上传失败了，这是cpu和内存：
“cpu”: {
“vendor”: “GenuineIntel”,
“model”: “Intel(R) Xeon(R) Gold 5218 CPU @ 2.30GHz”,
“speed”: 2300,
“cache”: 22528,
“cpus”: 2,
“cores”: 32,
“threads”: 64,
“governor”: “powersave”
}
“memory”: {
“type”: “DDR4”,
“speed”: 3200,
“size”: 327680,
“swap”: 65535
}

tikv参数：
log.file.max-days: 180
raftstore.raft-base-tick-interval: 2s
storage.block-cache.capacity: 100GB
numa绑定tikv绑了1，tiflash绑了0

tiflash.log太大了，截了一小段tiflash.txt (920.7 KB)

Hacker_ojLJ8Ndr · 2022 年6 月 28 日 11:36

24号的日志clinic收不到了，这个是23号那天的
https://clinic.pingcap.com.cn/portal/#/orgs/182/clusters/6801054821581547599?from=1655924400&to=1655926200

yilong · 2022 年6 月 30 日 02:33

和这个看起来是一个问题吧。升级6.1后，TiFlash服务异常

Hacker_ojLJ8Ndr · 2022 年6 月 30 日 02:34

是的。

yilong · 2022 年6 月 30 日 02:35

麻烦关注那个帖子就好了，多谢。

Hacker_ojLJ8Ndr · 2022 年6 月 30 日 02:36

ok~

tidb狂热爱好者 · 2022 年7 月 1 日 01:28

这个没办法解决等官方

system · 2022 年10 月 31 日 19:22

此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。