关于ticdc配置文件的疑问

关于ticdc的一些疑问:
1.ticdc 是增量数据同步工具,获取的是tikv log 变化的日志,部署的时候配置文件里面会有一个data_dir,启动了ticdc 之后观察,data目录中没有文件生成,想问下这个数据目录是干什么用的?
2.ticdc 配合changefeed 进行使用,changefeed可以指定同步的下游,可以是mysql兼容的数据库,kfk或者是一些存储,S3/NFS 之类的,想问下下游是数据库或者是kfa ,同步数据的源端来自哪里?是直接从tidb数据库获取还是从本地文件读取的,如果是本地文件读取的,这部分数据存储在哪里?

【资源汇总】TiDB-TiCDC 源码解读系列最全资源!!! - Billmay表妹 的专栏 - 专栏 - 【资源汇总】TiDB-TiCDC 源码解读系列最全资源!!! | TiDB 社区

看看这个,应该对你有帮助

好的 ,谢谢

1,排序用的,只有在changefeed运行后有数据同步了这个目录才会有数据
2. 同步数据的源端就是tidb数据库,tikv中的change log

理解了,谢谢,还有一个问题,针对第一个问题,数据目录里面的文件是不是得手工清理,还有就是,changefeed 解析的数据是不是也是来自与这个目录

不需要手动清理,他同步到下游后会自己清理的。


TiCDC Server 配置 | PingCAP 文档中心

俺也来学习学习。

TiDB 之 TiCDC6.0 初体验 - 知乎 (zhihu.com)

为了保障cdc 的高可用,一般建议部署不止一个cdc实例,多个capture会选举出来一个owner ,想问下这个owner 是如何选举的,官方文档这块没有相关的介绍

这个文章里有写选举的具体原理

用作临时排序,也作用缓冲区,当下游 sink 不够快时

Ticdc 是一款 TiDB 数据同步工具,其上游一定是 TiDB,它是捕捉 tikv 的变化来获取增量数据的

非常感谢,学习了

好的,针对于第一个问题,如果下游消费的足够快的话,是不是cdc 的data 目录下就不会有文件生成,可以理解为生产了的数据马上就被消费了,只有下游有延迟的时候,data 目录里面才缓存部分的数据