TiCDC支持全量增量数据复制

eastfisher · 2022 年3 月 9 日 05:47

需求反馈
请清晰准确地描述问题场景、需求行为及背景信息，更有利于产品同学及时跟进需求
【需求涉及的问题场景】

如题，在数据集成CDC场景下，对MySQL、Postgres等数据库，已有CDC工具支持全量+增量数据复制（如Debezium）。

【期望的需求行为】

目前的全量+增量数据复制，在全量复制阶段采用Dumpling+Lightning，增量复制采用TiCDC。

TiCDC是否考虑支持对全量数据的复制？这样可以简化全量数据同步的流程，并且对于下游的数据处理来说也会更加统一。

【需求可替代方案】

【背景信息】
如哪些用户将从中获益，以及一些使用场景，任何API设计，模型或者图标都会更有帮助。

lonng · 2022 年3 月 9 日 06:34

暂无支持计划，全量建议通过 Dumpling 来做。

YilinZhao-PingCAP · 2022 年3 月 9 日 07:19

Hi, @eastfisher 你好，

我是 TiCDC 的产品经理。关于您的需求我这边已收到。

对于 CDC 这类的数据捕获产品而言，正如您所说，大部分产品是支持全量 + 增量数据复制能力的，这是业内 CDC 同类产品经过实践和打磨后形成的共识。在将数据变更日志输出到各种第三方流处理产品、数据湖产品的场景中，支持全量 + 增量能力后，可以简化和统一下游数据处理流程，降低运维成本。从这个角度来看，这个能力具备一定价值的。

但是现阶段 TiCDC 的基础能力仍然较为薄弱，在同步吞吐和数据规模上，尚不能和 TiDB 的能力上限相匹配；在同步延迟上，用户对 TiCDC 还有更高的期待。另外，单独从 TiCDC 支持全量数据拉取这个需求来讲，TiDB 是一个可以承载大规模数据的分布式数据库，相较于传统单机数据库，前者承载全量数据量要大得多。这也就意味着 TiCDC 的全量同步能力要能支持大规模的数据，而 TiCDC 本身的系统架构是为了流式数据的处理和流转而设计的，在目前架构下，支持如此大批量的全量数据，对于 TiCDC 而言是一个比较大的技术挑战。

因此，结合 TiCDC 产品现状和权衡全量数据拉取这个需求本身的投入和产出，TiCDC 短期内暂没有支持全量数据拉取和同步的计划。但从长期来看，这个需求本身有其价值所在，我们会进一步综合考虑。

最后，感谢您对 TiCDC 产品的关注，感谢您提供有价值的需求报告。希望我们可以保持联系，您在使用 TiCDC 产品过程中的任何痛点和需求都可以在 AskTUG 上和我沟通。

Zealot · 2022 年3 月 23 日 08:00

还是赶快加入计划吧，你猜我昨天发现了啥，人家FlinkCDC在GitHub创建了TiDB的模块了，证明FlinkCDC下一步计划就是支持TiDB了

HACK · 2022 年6 月 26 日 02:44

我觉得全量初始化也应该交给TiCDC来做，这样可以简化用户的操作行为，带来很大的便利性。

system · 2022 年10 月 31 日 19:18

此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。