tiflash oom排查

为提高效率,请提供以下信息,问题描述清晰能够更快得到解决:
【 TiDB 使用环境】
生产环境

【概述】 场景 + 问题概述
单台tiflash内存暴增,导致oom
【背景】 做过哪些操作
无操作
【现象】 业务和数据库现象
性能抖动
【问题】 当前遇到的问题

【业务影响】

【TiDB 版本】
v5.1.1
【应用软件及版本】

【附件】 相关日志及配置信息



  • TiUP Cluster Display 信息
  • TiUP CLuster Edit config 信息

监控(https://metricstool.pingcap.com/)

  • TiDB-Overview Grafana监控
  • TiDB Grafana 监控
  • TiKV Grafana 监控
  • PD Grafana 监控
  • 对应模块日志(包含问题前后 1 小时日志)

若提问为性能优化、故障排查类问题,请下载脚本运行。终端输出的打印结果,请务必全选并复制粘贴上传。

麻烦帮忙收集,所有节点在 OOM 时间段前后的 TiFlash-Summary

在左上角选择其中一个发生 OOM 的节点,导出下面的监控:

TiFlash-Summary

TiFlash-Proxy-Details

Node_exporter

以及该 OOM 的节点的日志 tiflash.log/tiflash_tikv.log/tiflash_error.log

上传中:fc-tidb08-10.101.2.108-2.zip… 上传中:tidb-cluster-TiFlash-Proxy-Details_2021-10-19T01_19_27.572Z.json…

好像没法下载?上传中?

一直显示上传中

%E5%9B%BE%E7%89%87

如果太大了,麻烦先上传到其他云盘,再同步下链接吧,多谢。

链接:https://pan.baidu.com/s/1fqkO3BUy3-X0RvJJp_2cGw
提取码:7fk1

请问下现在 tiflash 节点还有发生 OOM 吗?另外麻烦确认下 tiflash 所在主机上 THP 有无关闭。

%E5%9B%BE%E7%89%87

请问下 tiflash 发生 OOM 是最上面的那条 SQL 语句触发的吗?最近还有再发生过吗?

最近没有发生 应该是上面那个语句触发的,奇怪的是我设置了单条sql最大内存使用是2G。

具体的内存参数是如何设置的?有无进行 reload 生效,可以看下 tidb 节点日志中有无 oom action 类的信息。

此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。