TiCDC 使用指南&资料大全

什么是 TiCDC 呢?

TiCDC 是一款 TiDB 增量数据同步工具,通过拉取上游 TiKV 的数据变更日志,TiCDC 可以将数据解析为有序的行级变更数据输出到下游。

TiCDC 适用场景

  • 数据库灾备:TiCDC 可以用于同构数据库之间的灾备场景,能够在灾难发生时保证主备集群数据的最终一致性,目前该场景仅支持 TiDB 作为主备集群。
  • 数据集成:TiCDC 提供 TiCDC Canal-JSON Protocol,支持其他系统订阅数据变更,能够为监控、缓存、全文索引、数据分析、异构数据库的主从复制等场景提供数据源。

要快速了解 TiCDC 的基本原理和使用方法,建议先观看下面的培训视频(时长 33 分钟)

TiCDC 架构

TiCDC 运行时是一种无状态节点,通过 PD 内部的 etcd 实现高可用。TiCDC 集群支持创建多个同步任务,向多个不同的下游进行数据同步。

TiCDC 的系统架构如下图所示:

系统角色

  • TiKV CDC 组件:只输出 key-value (KV) change log。
    • 内部逻辑拼装 KV change log。
    • 提供输出 KV change log 的接口,发送数据包括实时 change log 和增量扫的 change log。
  • capture :TiCDC 运行进程,多个 capture 组成一个 TiCDC 集群,负责 KV change log 的同步。
    • 每个 capture 负责拉取一部分 KV change log。
    • 对拉取的一个或多个 KV change log 进行排序。
    • 向下游还原事务或按照 TiCDC Open Protocol 进行输出。

同步功能介绍

1.sink 支持

目前 TiCDC sink 模块支持同步数据到以下下游:

  • MySQL 协议兼容的数据库,提供最终一致性支持。
  • 以 TiCDC Open Protocol 输出到 Kafka,可实现行级别有序、最终一致性或严格事务一致性三种一致性保证。

2.同步顺序保证和一致性保证

数据同步顺序

  • TiCDC 对于所有的 DDL/DML 都能对外输出 至少一次
  • TiCDC 在 TiKV/TiCDC 集群故障期间可能会重复发相同的 DDL/DML。对于重复的 DDL/DML:
    • MySQL sink 可以重复执行 DDL,对于在下游可重入的 DDL (譬如 truncate table)直接执行成功;对于在下游不可重入的 DDL(譬如 create table),执行失败,TiCDC 会忽略错误继续同步。
    • Kafka sink 会发送重复的消息,但重复消息不会破坏 Resolved Ts 的约束,用户可以在 Kafka 消费端进行过滤。

数据同步一致性

  • MySQL sink
    • TiCDC 不拆分单表事务, 保证 单表事务的原子性。
    • TiCDC 不保证 下游事务的执行顺序和上游完全一致。
    • TiCDC 以表为单位拆分跨表事务, 不保证 跨表事务的原子性。
    • TiCDC 保证 单行的更新与上游更新顺序一致。
  • Kafka sink
    • TiCDC 提供不同的数据分发策略,可以按照表、主键或 ts 等策略分发数据到不同 Kafka partition。
    • 不同分发策略下 consumer 的不同实现方式,可以实现不同级别的一致性,包括行级别有序、最终一致性或跨表事务一致性。
    • TiCDC 没有提供 Kafka 消费端实现,只提供了 TiCDC 开放数据协议,用户可以依据该协议实现 Kafka 数据的消费端。

同步限制

使用 TiCDC 进行同步的时候,请注意以下相关限制要求以及暂不支持的场景。

有效索引的相关要求

TiCDC 只能同步至少存在一个 有效索引 的表, 有效索引 的定义如下:

  • 主键 ( PRIMARY KEY ) 为有效索引。
  • 同时满足下列条件的唯一索引 ( UNIQUE INDEX ) 为有效索引:
    • 索引中每一列在表结构中明确定义非空 ( NOT NULL )。
    • 索引中不存在虚拟生成列 ( VIRTUAL GENERATED COLUMNS )。

TiCDC 从 4.0.8 版本开始,可通过修改任务配置来同步 没有有效索引 的表,但在数据一致性的保证上有所减弱。具体使用方法和注意事项参考同步没有有效索引的表

暂不支持的场景

目前 TiCDC 暂不支持的场景如下:

注意;从 v5.3.0 版本起,TiCDC 不再支持环形同步功能。

TiCDC 安装和部署

要安装 TiCDC,可以选择随新集群一起部署,也可以对现有 TiDB 集群新增 TiCDC 组件。详请参阅 TiCDC 安装部署

TiCDC 集群管理和同步任务管理

目前支持使用 cdc cli 工具或 HTTP 接口来管理 TiCDC 集群状态和数据同步任务。详细操作见:

1.使用 cdc cli 工具来管理集群状态和数据同步
2.使用 OpenAPI 接口管理集群状态和数据同步

TiCDC 开放数据协议

TiCDC Open Protocol 是一种行级别的数据变更通知协议,为监控、缓存、全文索引、分析引擎、异构数据库的主从复制等提供数据源。TiCDC 遵循 TiCDC Open Protocol,向 MQ (Message Queue) 等第三方数据媒介复制 TiDB 的数据变更。
详细信息参考 TiCDC 开放数据协议

兼容性问题

https://docs.pingcap.com/zh/tidb/stable/ticdc-overview#兼容性问题

TiCDC 常见问题与故障处理

使用 TiCDC 过程中经常遇到的问题,请参考 TiCDC 常见问题
使用 TiCDC 过程中遇到的故障及解决,请参考 TiCDC 故障处理

TiCDC 的使用实践文章合集

TiCDC 的架构解析文章合集

TiCDC 的热门问答

如有TiCDC相关问题,欢迎到Asktug发问,点击查看 问题搜索指南&提问准则

1 个赞

博客 - TiCDC

https://cn.pingcap.com/blog/tag/ticdc/

1 个赞