TiCDC支持全量增量数据复制

需求反馈
请清晰准确地描述问题场景、需求行为及背景信息,更有利于产品同学及时跟进需求
【需求涉及的问题场景】

如题,在数据集成CDC场景下,对MySQL、Postgres等数据库,已有CDC工具支持全量+增量数据复制(如Debezium)。

【期望的需求行为】

目前的全量+增量数据复制,在全量复制阶段采用Dumpling+Lightning,增量复制采用TiCDC。

TiCDC是否考虑支持对全量数据的复制?这样可以简化全量数据同步的流程,并且对于下游的数据处理来说也会更加统一。

【需求可替代方案】

【背景信息】
如哪些用户将从中获益,以及一些使用场景,任何API设计,模型或者图标都会更有帮助。

暂无支持计划,全量建议通过 Dumpling 来做。

Hi, @eastfisher 你好,

我是 TiCDC 的产品经理。关于您的需求我这边已收到。

对于 CDC 这类的数据捕获产品而言,正如您所说,大部分产品是支持全量 + 增量数据复制能力的,这是业内 CDC 同类产品经过实践和打磨后形成的共识。在将数据变更日志输出到各种第三方流处理产品、数据湖产品的场景中,支持全量 + 增量能力后,可以简化和统一下游数据处理流程,降低运维成本。从这个角度来看,这个能力具备一定价值的。

但是现阶段 TiCDC 的基础能力仍然较为薄弱,在同步吞吐和数据规模上,尚不能和 TiDB 的能力上限相匹配;在同步延迟上,用户对 TiCDC 还有更高的期待。另外,单独从 TiCDC 支持全量数据拉取这个需求来讲,TiDB 是一个可以承载大规模数据的分布式数据库,相较于传统单机数据库,前者承载全量数据量要大得多。这也就意味着 TiCDC 的全量同步能力要能支持大规模的数据,而 TiCDC 本身的系统架构是为了流式数据的处理和流转而设计的,在目前架构下,支持如此大批量的全量数据,对于 TiCDC 而言是一个比较大的技术挑战。

因此,结合 TiCDC 产品现状和权衡全量数据拉取这个需求本身的投入和产出,TiCDC 短期内暂没有支持全量数据拉取和同步的计划。但从长期来看,这个需求本身有其价值所在,我们会进一步综合考虑。

最后,感谢您对 TiCDC 产品的关注,感谢您提供有价值的需求报告。希望我们可以保持联系,您在使用 TiCDC 产品过程中的任何痛点和需求都可以在 AskTUG 上和我沟通。

2赞

还是赶快加入计划吧,你猜我昨天发现了啥,人家FlinkCDC在GitHub创建了TiDB的模块了,证明FlinkCDC下一步计划就是支持TiDB了

1赞

我觉得全量初始化也应该交给TiCDC来做,这样可以简化用户的操作行为,带来很大的便利性。