Hi, @eastfisher 你好,
我是 TiCDC 的产品经理。关于您的需求我这边已收到。
对于 CDC 这类的数据捕获产品而言,正如您所说,大部分产品是支持全量 + 增量数据复制能力的,这是业内 CDC 同类产品经过实践和打磨后形成的共识。在将数据变更日志输出到各种第三方流处理产品、数据湖产品的场景中,支持全量 + 增量能力后,可以简化和统一下游数据处理流程,降低运维成本。从这个角度来看,这个能力具备一定价值的。
但是现阶段 TiCDC 的基础能力仍然较为薄弱,在同步吞吐和数据规模上,尚不能和 TiDB 的能力上限相匹配;在同步延迟上,用户对 TiCDC 还有更高的期待。另外,单独从 TiCDC 支持全量数据拉取这个需求来讲,TiDB 是一个可以承载大规模数据的分布式数据库,相较于传统单机数据库,前者承载全量数据量要大得多。这也就意味着 TiCDC 的全量同步能力要能支持大规模的数据,而 TiCDC 本身的系统架构是为了流式数据的处理和流转而设计的,在目前架构下,支持如此大批量的全量数据,对于 TiCDC 而言是一个比较大的技术挑战。
因此,结合 TiCDC 产品现状和权衡全量数据拉取这个需求本身的投入和产出,TiCDC 短期内暂没有支持全量数据拉取和同步的计划。但从长期来看,这个需求本身有其价值所在,我们会进一步综合考虑。
最后,感谢您对 TiCDC 产品的关注,感谢您提供有价值的需求报告。希望我们可以保持联系,您在使用 TiCDC 产品过程中的任何痛点和需求都可以在 AskTUG 上和我沟通。