TiDB 的问答社区

ticdc 不知为何重复 oom

🪐 TiDB 技术问题备份&数据迁移

TiDBer_Jack (Ti D Ber Mk Wfi W Zy) 2025 年4 月 1 日 09:49 1

【 TiDB 使用环境】生产环境
【 TiDB 版本】v6.5.9
【复现路径】无
【遇到的问题：问题现象及影响】4 月 1 号凌晨突然 cdc oom，导致同步延时
【资源配置】 3 台 ticdc 全为 8c16g
【附件：截图/日志/监控】
在 0 点 1 分的时候，ticdc 出现 oom，导致数据同步延时，同步的地方有 tidb → tidb,tidb -->kafka，求各位大佬帮我分析下原因，如何排查这个问题
0 点的运维定时操作：在每个月的 1 号 0 点执行添加按月分区的 sql，sql 已验证过，不会对 cdc 任务有影响
恢复操作：升级 ticdc 为 16c32g
监控的断点是 cdc 服务 oom 了，三台一直循环 oom

其中一台 cdc 的 cpu 内存，流量监控

cdc 的错误日志

Billmay表妹 (表妹) 2025 年4 月 1 日 10:54 2

你的升级方式是怎么样的，是一台一台先扩容再缩容吗？

TiDBer_Jack (Ti D Ber Mk Wfi W Zy) 2025 年4 月 1 日 10:56 3

不是，因为 cdc 一直 oom 持续重启了，我直接关机，升级配置
升级完是慢慢恢复了，没升级的时候就一直 oom，导致延迟越来越大，数据没法同步到下游，我想要知道是什么原因导致的，查不出来，无从下手

Billmay表妹 (表妹) 2025 年4 月 1 日 10:57 4

升级完成之后还会一直 oom 吗？

TiDBer_Jack (Ti D Ber Mk Wfi W Zy) 2025 年4 月 1 日 11:05 5

不会，升级完过十分钟左右，延迟慢慢减少，半小时左右恢复，就是什么情况下会出现 oom，这个我们得确认，主要我看日志，监控，都看不出是什么问题导致的

TiDBer_Jack (Ti D Ber Mk Wfi W Zy) 2025 年4 月 1 日 11:13 6

升级之后的，最大用到了 21G

TiDBer_wk (Ti D Ber Os7emy Bg) 2025 年4 月 1 日 14:37 7

有开启 redo 吗？这里有一个关于内存飙升的 issue。Memory usage surges during redo apply recently · Issue #10900 · pingcap/tiflow · GitHub

dba远航 (Ti D Ber M Lo7 Bqhk) 2025 年4 月 2 日 00:39 8

感觉是升级造成资源紧张，出现OOM，然后一直不能完成，所以持续OOM

乡在人间 (Ti D Ber Ki Nyc B Fs) 2025 年4 月 2 日 01:25 9

可以的话，先扩容下内存，再后续深入排查吧

啦啦啦啦啦 2025 年4 月 2 日 02:02 10

16G确实太小了，官方建议的生产环境配置是64G，我们这边ticdc 平时内存也得用10G左右，高峰能到20G以上

TiDBer_Jack (Ti D Ber Mk Wfi W Zy) 2025 年4 月 2 日 06:58 11

好吧，对于突增的内存确实没找到存在的问题，我们的每个任务默认使用内存都是 1G，有一个是 4G，估计就是几个任务的量突然增多，导致打满的

TiDBer_Jack (Ti D Ber Mk Wfi W Zy) 2025 年4 月 2 日 06:59 12

redo是啥

TiDBer_Jack (Ti D Ber Mk Wfi W Zy) 2025 年4 月 2 日 11:46 13

没有开启的
排查结果就是没发生特别大的事务，都是正常的操作

Soysauce520 (Soysauce520) 2025 年4 月 3 日 06:44 16

https://docs.pingcap.com/zh/tidb/stable/replicate-between-primary-and-secondary-clusters/#第-5-步使用-redo-log-确保数据一致性

清风明月 2025 年4 月 4 日 05:37 17

资源太小了吧

逍遥_猫 2025 年4 月 12 日 03:48 18

CDC配置文件有设置限制内存？

©2023 TiDB Community. 京ICP备20022552号-5 京公网安备11010802043344号