[BUG] tikv-server 内存溢出触发(OOM)

【 TiDB 使用环境】生产环境 /测试/ Poc
系统版本:Ubuntu 20.04
TIDB版本: v.6.5.1 v6.5.0
【复现路径】
在进行e2e的测试中,当压力平稳后内存使用仍在增长,如进行长时间e2e测试 则会触发OOM
【遇到的问题:问题现象及影响】


触发OOM重启
【资源配置】
主机资源配置:
CPU:16核
内存:128G
机械磁盘:20T

监控截图


Heap pprof
000001.heap (55.9 KB)

最在出现在TIDB v6.5.0版本中,后续发现有发布v6.5.1随将其升级, 升级发现内存占用还是有点问题. e2e工具压力一至是稳定的 没有突发等 tikv内存会缓慢增长触发OOM v6.5.0版本触发了 ,升级后暂未触发 但在我们的场景下内存占用还是一直增加 所以怀疑可能是tikv内部问题. 楼上已经提供了 Head pprof 麻烦大佬分析一下 谢谢.

可以用 clinic 或者 metrictools 工具抓一个 TiKV-details 的监控吗?

之前看到一个这样子的帖子 不知道有无关联

tidb-test-TiKV-Details_2023-03-28T08_59_55.204Z.json (14.0 MB)
注意: 我不清楚这个导出的是什么时间段的,我在最近30分钟调整了一些业务 所以TIDB可能有一些资源使用会一下子降低很多

在我的环境中,我们是混合部署.TIDB和业务还有其他基础组件都在一起. 不确定OOM一定是TIDB触发的. 也有可能是其他服务触发倒是TIKV被误kill. 目前只是觉得这个内存占用一致增长比较奇怪

流控在新版是默认开启的 我没有调整

@h5n1