tiflash不断重启

为提高效率,请提供以下信息,问题描述清晰能够更快得到解决:
【 TiDB 使用环境】tidb 5.0.0版本
集群信息详见下图:

【概述】场景+问题概述
目前导入一个5亿数据记录的表,4个tiflash节点,1个副本,tiflash同步完成后,进程一直不断重启,请问如何排查该问题??
目前修改了tiflash的内存限制,reload tiflash后还是没有解决

【背景】做过哪些操作

【现象】业务和数据库现象
另外,tiflashmain进程不断重启后,服务器磁盘IO异常高,如下图


重启后,进程大概持续2-3分钟。

【业务影响】

【TiDB 版本】

【附件】

  1. TiUP Cluster Display 信息

  2. TiUP Cluster Edit Config 信息

  3. TiDB- Overview 监控

  • 对应模块日志(包含问题前后1小时日志)

若提问为性能优化、故障排查类问题,请下载脚本运行。终端输出的打印结果,请务必全选并复制粘贴上传。

3 个赞

tiflash err log 和 tiflash log 提供一下,看一下内存的监控有没有 oom

4 个赞

就是OOM了

2 个赞

需要您提供一下日志进一步判断

2 个赞

tiflash.log (595.6 KB) tiflash_error.log (135 字节)

2 个赞

目前我4个tiflash节点服务器内存已经加大到32G,但tiflash还是发生OOM

2 个赞

您有拼宽表的行为吗?
可以考虑一下调小下面几个参数
profiles.default.dt_segment_limit_rows = 500000
profiles.default.dt_segment_delta_limit_rows = 40000
profiles.default.dt_segment_force_merge_delta_deletes = 5
profiles.default.dt_segment_force_merge_delta_rows = 500000
profiles.default.dt_segment_delta_cache_limit_rows = 1000
profiles.default.dt_segment_delta_small_pack_rows = 128

1 个赞

目前tiflash里面就一个表,是宽表,能解释下几个参数的作用么?我看官方文档里面都没有这几个参数,按你给出的值减小一半设置还是会OOM

1 个赞

最新OOM后日志如下:
tiflash.log (1.5 MB) tiflash_error.log (542 字节)

1 个赞

问一下,这个问题解决了吗,有没有参考其他 类似帖子的解决办法

1 个赞

并没有解决,直接没用tiflash了

1 个赞

额,好吧,
1、tiflash oom 的问题,在后续版本是在持续优化中,可以尝试一下(不知道你 oom 的原因,不敢确定)
2、你 tiflash 的日志,有点少,可以提供包含 oom时间 及 启动前时间的日志

此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。