tikv 内存一直增长 最终oom

【 TiDB 使用环境】生产环境
【 TiDB 版本】 v6.5.0
【复现路径】做过哪些操作出现的问题
【遇到的问题:问题现象及影响】
【资源配置】
【附件:截图/日志/监控】
内存参数已经调整为16G了 默认28G tikv 节点系统内存64G
查看tikv-cdc cdc memory 监控一直再增长,如何控制下呢
reload ticdc 集群没有不会释放tikv cdc 占用的内存
为什么cdc memory 会占用这么高呢 这不是同步任务都影响集群的稳定性了么!
从版本5.2.1 升级到6.5.0 后出现的问题,怀疑和版本有关系

同步数据,cdc memory自然一直增长

这也合理? 不回收 不释放 不控制占用大小? 启动就占用7G 一直增长到40G 导致tikv-server oom 这相当是同步软件影响集群稳定性了

可能是同步任务中有大宽表导致的,可以通过 per-table-memory-quota 限制单表使用的内存大小。
具体可参考https://docs.pingcap.com/zh/tidb/stable/ticdc-overview#最佳实践

设置成10MB 重启cdc 没有用的
cdc 集群内存128GB 每个节点才使用3G 左右内存,反倒是tivk-server 节点cdc memory 占用了大量内存
看文档上tikv-server 主要内存是storage.block-cache-size.capacity(28G) 和write-buffer-szie(默认128MB) tikv-server 服务器64G总内存,没有混合部署 ,memory-usage-limit tidb 自己计算出来的48GB 吧 就算我把storage.block-cache-size.capacity 调整到16G tikv-server 总内存还是会涨到48G 最后oom cdc 集群的内存很低的 不高,主要是tikv-server 高 完全不知道为什么

cdc 节点内存 负载 非常低 完全没压力



但是tikv 节点内存一直再增长

方便的话可以发一下 TiKV-Details 的监控和 TiCDC 的监控,现在cdc 同步是否有延迟?

cdc 没有延迟的 我看了下tikv 的日志 之前tikv.log 日志都很小, 自从升级以后tikv.log 都很大了 里面就是一些cdc 相关的报错


当前tikv.log 仍然在报这个错误

当时创建ticdc 同步的命令 会不会和参数有关系?

tiup ctl:v6.5.0 cdc changefeed create --pd=http://10.30.30.4:2379 --sink-uri=“kafka://node2.prod.com:9092/ticdc?kafka-version=2.13.3&partition-num=3&max-message-bytes=128108864&replication-factor=3&protocol=canal-json&compression.type=lz4” --changefeed-id=“ticdc-prd”

tikv reload 了 cdc memory 就回到6-7G 了 会一直涨到34G 到oom tikv 内存

tikv 日志还是报错

给个集群的配置和部署相关的信息吧,不要让大家猜谜 :upside_down_face:

tikv 配置都是默认的(动态调整了很多参数 都没有用) 就tidb 节点参数设置了几个


2tidb 5tikv 3pd 2 ticdc 集群 抽取数据到kafka 现在就是tikv-server 节点内存一直涨,涨的就是cdc memory ticdc 同步checkpoint 推进正常的 没有延迟

pprof分析 一波

https://metricstool.pingcap.net/ 通过这个把 tikv-details 和 cdc 的监控导一份 json 出来看看吧

这里的内存不是指的 cdc 的内存。可以检查 resolved-ts.enable 参数是否为 true,试试参数设置为 false 是否有改善?

进入到 TiDB Dashboard -集群信息 (Cluster Info) -主机(Hosts) 截图此页面

看下你的配置

没找到tivk 有pprof debug接口 地址

tidb-test-TiCDC_2023-05-16T08_10_09.304Z.rar (906.7 KB)
tidb-test-TiKV-Details_2023-05-16T08_00_47.362Z.rar (1.2 MB)

是的 是不是cdc 的内存 cdc 集群本身使用很少的内存 ,这个是tikv服务器指标cdc memory 指标 这个参数不能动态设置,等他涨涨的 我设置配置文件 reload 下看看

ticdc 装那儿在?