tiflash 产生了大量的core.*文件,把磁盘打满

【 TiDB 使用环境】
V5.0.2
【概述】场景+问题概述
使用tidb同步mysql5.7的数据库,使用tiflash进行分析
【现象】业务和数据库现象
从9月10号下午16点21左右开始
tiflash 产生了大量的core.*文件,把磁盘打满
【业务影响】
磁盘打满,扩容后 tiup cluster display 显示正常启动,取消所有表SET TIFLASH REPLICA 0,core文件仍增加,目前已经停止tiflash节点
【TiDB 版本】
V5.0.2
【附件】





相关日志文件:
链接: https://pan.baidu.com/s/1OSuC76-IpS8yIZIN67Nyrg 提取码: 3296

2021015补充:升级到5.1.1版本问题仍存在,最新的core.*文件和日志,已经上传到网盘

2赞

这个时间点前后业务有什么变化吗?
另外一共有几个 TiFlash 节点,是每个 tiflash 节点都报错吗?
完整的 tiflash.log 以及 tiflash 的 错误日志一起提供下吧。

1赞

5.0.2 版本有已知 bug 可能会导致这个问题,请 升级到 5.0.4 试试

1赞

感谢回复,补充相关信息如下,麻烦协助处理一下
1、这个时间点更正一下是是16:21左右,业务没有特殊变化
2、只部署了一个tiflash节点,用来加速查询,目前已经停掉这个节点
3、相关日志已经更新上面链接的网盘里了
链接: https://pan.baidu.com/s/1OSuC76-IpS8yIZIN67Nyrg 提取码: 3296

1赞

感谢回复 ,有关于这个bug的相关信息没
是升级到5.0.4后,删除core.*文件 ,再进行启动么

1赞

这是内部信息。
对,升级后重启就行

1赞

官网release notes 没有5.0.4

1赞

刚在官网查了一下,确实没有5.0.4这个版本。麻烦确认一下是哪一版本,多谢

1赞

5.0.4 还要2周发布,你可以先用 5.1.1 这个版本也 fix了这个问题

1赞

好的感谢

1赞

升级到5.1.1版本后,问题仍然存在


1赞

麻烦发一下最新版本的 coredump 文件,我们再看一下。

所指指的是core.123274这个文件么

指的core.*文件的话文件上传,已经上传文件名: core.124684.tar.gz
最新日志也上传了,麻烦帮忙分析一下
链接: https://pan.baidu.com/s/1OSuC76-IpS8yIZIN67Nyrg 提取码: 3296

1赞

我们先分析一下,感谢~

根据 error log,你 ls 看一下读文件出错的那几个文件,例如
/data/tidb-data/tiflash-9000/data/t_549/log/page_15_0
/data/tidb-data/tiflash-9000/data/t_549/log/page_17_0
看看它们是否正常,比如大小,权限等。

我查了没有这几个文件

那请你再打开看看 legacy.page_xx 这几个文件是否正常


里面文件内容没办法看,权限正常

查看了下日志,最开始是在9月10日,16点21左右,因为mpp任务出错取消过程中一些已知 bug,导致频繁 coredump。在频繁 coredump 的过程中,存储层的文件损坏了,无法读取到数据,造成后续的 coredump。

该 mpp 出错取消导致coredump的 bug,在 5.0.4/5.1.1/5.2.0 中修复了。但是因为这个 tiflash 节点存储层文件已经损坏,所以只能将该 TiFlash 节点下线后重新扩容来提供服务。