请问如何实现tidb表数据全量+增量接入kafka

【 TiDB 使用环境】测试
【 TiDB 版本】8.5
现在我们要做大数据数仓,需要把tidb的数据接入数据湖中,首先要同步全量,然后无缝接入增量。
如何实现表的全量+增量接入kafka???

大数据的数仓是hdfs的?可以用dumpling导出全量数据输出csv到下游,下游大数据有工具吧csv导入的,然后通过cdc增量同步到kafka.

1 个赞

可以通过tidb-dump工具搞吧,做定时任务,将TiDB的数据导出为SQL文件,然后用Kafka的producer工具或API将这些数据发送到Kafka的topic

数仓可以用fink-cdc工具全量拉取数据,tidb这边用ticdc将增量数据发到kafka

TiCDC 工具抽取全量快照+TiCDC 监听 TiDB 的KV事务日志同步

使用 BR 工具对 TiDB 表进行备份,使用 Kafka Connect JDBC Source Connector 导入数据到 Kafka,对于增量数据同步,使用 CDC将数据发送到 Kafka。

学习了。

首先,需要将TiDB中的数据导出为SQL文件或CSV文件。可以使用mysqldump工具来导出SQL文件,

然后,使用TiDB Lightning将导出的数据文件导入到Kafka中。TiDB Lightning支持将数据导入到多种下游存储,包括Kafka。需要配置TiDB Lightning的配置文件,指定Kafka的相关参数,如Kafka的地址、主题等。

增量部分可以参考表妹这篇专栏