tidb 持续oom

【概述】 场景 + 问题概述
总共个tidb节点 和pd混不
tidb 持续oom



【背景】 做过哪些操作
下午修改过ticdc推送到kafka的压缩格式 ,–sink-uri 加上了compressionType=LZ4

【问题】 当前遇到的问题
tidb持续oom

【业务影响】
影响生产系统

【TiDB 版本】
V5.4.0

请把环境信息补充一下

然后哪些 tidb 节点 OOM,还是固定的一个?

tidb_mem_quota_query 这个参数可以放大点

这个是开发问题 sql问题

3个tidb都发生oom



1661766710196_554F233A-3958-4472-980D-58AC93E7B0AD

3个tidb 节点上分别有几个tidb实例?

这3个节点上还有其他的组件吗? 有其他组件的话 每个节点上有几个实例

然后每个节点上的内存都是多少?
每个节点上的每个实例内存相关的参数配置的都是多少?

没有其他组件了 16C32G 3个节点 ,只有pd&tidb服务

你可以查阅下 OOM 之前,是什么操作导致的,

  1. 超大量的事务
  2. 超大的 慢SQL
  3. 内存配置不足?

如果不方便查,建议开启资源定位,帮助监听是什么操作导致的OOM
https://docs.pingcap.com/zh/tidb/stable/identify-slow-queries

一台服务器上1个pd 和1个 tidb?

pd 和 tidb 的实例 内存相关参数都配置的多少啊?

:+1::+1::+1:

tidb&pd 16c32G
tikv 16c64G

资源不太大,慢sql和消耗资源多的sql有没,有没有操作大事务

筛选了一些 expensive 的sql语句出来

tidb&pd、tikv 每个组件的每个实例内存配置占比多少呀?

mem-quota-query: 限制单条sql 的使用量(默认值 1GB) 这个配置多少?

启用oom 临时磁盘了吗? 如果没有的先开启试试

默认值的