请问如何实现tidb表数据全量+增量接入kafka

TiDBer_rKqOgFyM · 2025 年1 月 16 日 06:11

【 TiDB 使用环境】测试
【 TiDB 版本】8.5
现在我们要做大数据数仓，需要把tidb的数据接入数据湖中，首先要同步全量，然后无缝接入增量。
如何实现表的全量+增量接入kafka？？？

像风一样的男子 · 2025 年1 月 16 日 06:30

大数据的数仓是hdfs的？可以用dumpling导出全量数据输出csv到下游，下游大数据有工具吧csv导入的，然后通过cdc增量同步到kafka.

小青年er · 2025 年1 月 16 日 07:28

可以通过tidb-dump工具搞吧，做定时任务，将TiDB的数据导出为SQL文件，然后用Kafka的producer工具或API将这些数据发送到Kafka的topic

心在飞翔 · 2025 年1 月 16 日 07:28

数仓可以用fink-cdc工具全量拉取数据，tidb这边用ticdc将增量数据发到kafka

TiDBer_Robin · 2025 年1 月 16 日 08:15

TiCDC 工具抽取全量快照+TiCDC 监听 TiDB 的KV事务日志同步

TiDBer_小杰 · 2025 年1 月 16 日 11:07

使用 BR 工具对 TiDB 表进行备份，使用 Kafka Connect JDBC Source Connector 导入数据到 Kafka，对于增量数据同步，使用 CDC将数据发送到 Kafka。

The-Fallen-Angel · 2025 年1 月 16 日 13:49

学习了。

kang · 2025 年1 月 16 日 15:24

首先，需要将TiDB中的数据导出为SQL文件或CSV文件。可以使用mysqldump工具来导出SQL文件，

然后，使用TiDB Lightning将导出的数据文件导入到Kafka中。TiDB Lightning支持将数据导入到多种下游存储，包括Kafka。需要配置TiDB Lightning的配置文件，指定Kafka的相关参数，如Kafka的地址、主题等。

Kongdom · 2025 年1 月 30 日 14:03

增量部分可以参考表妹这篇专栏