cdc 同步binlog 到kakfa 没数据

tidb-amazon-CDC_2020-11-18T07_07_35.785Z.json (526.5 KB)

我们正在调查内存的使用问题,初步看是 cdc 存储表信息占用了比较多的内存空间,请问以下两个信息能否提供 @ec_tom

  • 上游数据库一共有多少张用户表(指所有的用户表,和是否同步这张表无关)
  • 是否有 DDL 操作,以及如果有 DDL,执行的频率大概是怎样的

1:上游数据库数

表总数:

2:DDL操作很频繁的,每天都有。一次ddl操作会更新几百个数据库

昨天搭建一个任务同步了22个表,之后没多久内存就用完了,任务就启不来了

目前实现 cdc 会在内存缓存表结构信息,并且按照 ddl version 进行多版本的缓存,并有一些 GC 机制。是这里消耗了比较多的内存。cdc 需要对这部分实现做一些优化

那优化后的版本大概什么时候会发布?

https://github.com/pingcap/ticdc/issues/1098
已经在这个 issue 追踪该事项,具体修复和发布时间会在 issue 中更新

4.0.9 会带上这个问题的优化