现在gc 已经设置成1h了 以前都是24h 没用还是重启后一直涨到oom 继续重启
感觉重启了马上就占掉20G左右 之后就不停的涨 涨到28G 左右就到限制了 oom了
是不是cdc 有什么bug 导致的呢,一直有cdc 的报错
storage.block-cache.capacity 从默认14G调整到8G了 还是会慢慢的涨上去
gc-life-time 从24h 调整到10分钟 没效果
收集统计信息的 只有白天时间段会收集 夜里也没看到 内存有稳定回收
memory-limit 也从28G 提高到30G了
cdc 有没有很大的延迟? cdc 同步的表的数量 有没有变化很大? 每个表都是需要占一些内存的?
基本没有延迟的 cdc 同步的表数量估计300个左右 但是数据库不是很大 整个库也就18G 这个cdc 也不能一直涨啊 这样相当于cdc 同步的都导致tikv 不停重启了
可以看一下cdc 的监控,看看cdc 节点使用的内存,确认一下 是不是cdc影响的。如果是的话,建议不要混合部署,正常情况下,cdc 的内存不会特别大。
cdc 节点128G 使用了2G 不到 还有125G 可用 负载很低很低 完全没有混合部署 tikv 一台机器一个tikv 实例 现在就是不正常了 tikv 服务器内存都升级过了 还是会oom 64G 内存 storage.block-cache.capacity 都调整成16G了 默认是28G
tikv 有没有 curl /debug/pprof/heap 或者/debug/zip 这种 都试过了 下载不出来 完全没法分析 cdc memory 到底存的什么东西了
tikv oom
关注中。。。