生产上TiFlash频繁OOM、宕机、起不来影响线上业务,tiflash是否可用?

Bug 反馈
清晰准确地描述您发现的问题,提供任何可能复现问题的步骤有助于研发同学及时处理问题
【 Bug 的影响】
tiflash 频繁OOM,导致生产服务不可用

【可能的问题复现步骤】
突发性的tiflash内存飙升,知道OOM,宕机、再也起不来

【看到的非预期行为】
OOM,宕机,服务起不来

【期望看到的行为】
tiflash正常提供服务
【相关组件及具体版本】
tidb: 4.0.11
tiup: 1.4.3
【其他背景信息或者截图】
如集群拓扑,系统和内核版本,应用 app 信息等;如果问题跟 SQL 有关,请提供 SQL 语句和相关表的 Schema 信息;如果节点日志存在关键报错,请提供相关节点的日志内容或文件;如果一些业务敏感信息不便提供,请留下联系方式,我们与您私下沟通。

tiflash.zip (6.3 MB)
tiflash监控如上,联系方式:13426319650

麻烦贴一下 tiflash 的 errorlog,tiflash log。

嗨,可以加下微信排查吗,日志有点大,而且生产第二次出这个问题了,想尽快排查和解决

tiflash_error .zip (278.4 KB)
这个是error log, flash log太大,稍等下啊

好的,可以通过网盘等工具上传一下 log

tiflash日志太大,压缩后是30m,哪个网盘你们会下载快些

宕机时间是今天的吧,可以直给今天的,会小一点

麻烦查一下 dashboard 里面 tiflash 的内存使用率。

好的,我找下截取下

dmesg 的 log 也提供一下。

达到了近30G,这两台机器每台内存总共才30G

dmesg.zip (109.8 KB)

Hi,这里的问题应该与这个帖子是同一个问题?生产问题,请加急处理,tiflash宕机,起不来 。我在那边做了回复哈。

嗯嗯对的,是一个问题,我上午比较着急解决问题,就在这又新开了一个,谢谢各位老师