TiDB 6.1.0 版本 TiFlash 异常重启

生产环境,前一天升级完6.1.0并开启动态裁剪模式,夜里跑批的时候所有的tiflash节点报错无法分配内存,导致服务器重启,重启后关闭了动态裁剪模式。环境为tikv和tiflash混合部署,今天没有出现内存无法分配的报错,但出现了以下报错,只有一个tiflash节点出现了问题,且这个节点没有配置numa,其它混合部署的节点配置了numa。

【 TiDB 版本】
6.1.0
【遇到的问题】
夜里跑批,tiflash反复重启,报错如下:
tiflash_stderr.log :
Logging debug to /data01/deploy/log/tiflash.log
Logging errors to /data01/deploy/log/tiflash_error.log
deprecated configuration, log-file has been moved to log.file.filename
override log.file.filename with log-file, “/data01/deploy/log/tiflash_tikv.log”
libc++abi: terminate_handler unexpectedly threw an exception
Logging debug to /data01/deploy/log/tiflash.log
Logging errors to /data01/deploy/log/tiflash_error.log
deprecated configuration, log-file has been moved to log.file.filename
override log.file.filename with log-file, “/data01/deploy/log/tiflash_tikv.log”

tiflash.log:

【处理】
问题节点强制缩容后再扩容没再报错,并添加了numa绑定。

  1. tikv 和 tiflash 混合部署的资源情况如何? cpu 和 内存是多少?
  2. 麻烦上传下完整的 tiflash.log 日志

clinic收集后上传失败了,这是cpu和内存:
“cpu”: {
“vendor”: “GenuineIntel”,
“model”: “Intel® Xeon® Gold 5218 CPU @ 2.30GHz”,
“speed”: 2300,
“cache”: 22528,
“cpus”: 2,
“cores”: 32,
“threads”: 64,
“governor”: “powersave”
}
“memory”: {
“type”: “DDR4”,
“speed”: 3200,
“size”: 327680,
“swap”: 65535
}

tikv参数:
log.file.max-days: 180
raftstore.raft-base-tick-interval: 2s
storage.block-cache.capacity: 100GB
numa绑定tikv绑了1,tiflash绑了0

tiflash.log太大了,截了一小段tiflash.txt (920.7 KB)

24号的日志clinic收不到了,这个是23号那天的
https://clinic.pingcap.com.cn/portal/#/orgs/182/clusters/6801054821581547599?from=1655924400&to=1655926200

和这个看起来是一个问题吧。升级6.1后,TiFlash服务异常

是的。

麻烦关注那个帖子就好了,多谢。

ok~

这个没办法解决等官方