课程名称:2.3.3 Import Data to TiDB(将数据导入 TiDB)
学习时长:30min
课程收获:
TiDB数据导入;TiDB Lightning;TiDB Data Migration
课程内容:
-
使用TiDB Lightning导入全量数据
TiDB Lightning 是一个将全量数据高速导入到TiDB 集群的工具。
TiDB Lightning 有以下两个主要的使用场景:一是大量新数据的快速导入;二是全量备份数据的恢复。目前,Lightning 支持Mydumper 或CSV 输出格式的数据源。你可以在以下两种场景下使用Lightning:
• 迅速导入大量新数据。
• 恢复所有备份数据。
TiDB Lightning 整体架构
TiDB Lightning 整体工作原理如下:
1). 在导数据之前,tidb-lightning 会自动将TiKV 集群切换为“导入模式” (import mode),优化写入效率并停止自动压缩。
2). tidb-lightning 会在目标数据库建立架构和表,并获取其元数据。
3). 每张表都会被分割为多个连续的区块,这样来自大表(200 GB+) 的数据就可以用增量方式并行导入。
4). tidb-lightning 会为每一个区块准备一个“引擎文件(engine file)” 来处理键值对。tidb-lightning 会并
发读取SQL dump,将数据源转换成与TiDB 相同编码的键值对,然后将这些键值对排序写入本地临时存储文件中。
5). 当一个引擎文件数据写入完毕时,tidb-lightning 便开始对目标TiKV 集群数据进行分裂和调度,然后导入数据到TiKV 集群。
引擎文件包含两种:数据引擎与索引引擎,各自又对应两种键值对:行数据和次级索引。通常行数据
在数据源里是完全有序的,而次级索引是无序的。因此,数据引擎文件在对应区块写入完成后会被立
即上传,而所有的索引引擎文件只有在整张表所有区块编码完成后才会执行导入。
本地模式
使用场景:
-
增量数据导入: TiDB Data Migration
数据迁入
TiDB Data Migration (DM) 是将MySQL/MariaDB 数据迁移到TiDB 的工具,支持全量数据和增量数据的迁移。
基本信息:
- DM 的输入:MySQL/MariaDB
- DM 的输出:TiDB 集群
- 适用TiDB 版本:所有版本
- Kubernetes 支持:开发中
如果数据量在TB 级别以下,推荐直接使用DM 迁移MySQL/MariaDB 数据到TiDB(迁移的过程包括全量数据的导出导入和增量数据的同步)。
如果数据量在TB 级别,推荐的迁移步骤如下:
1). 使用Dumpling 导出MySQL/MariaDB 全量数据。
2). 使用TiDB Lightning 将全量导出数据导入TiDB 集群。
3). 使用DM 迁移MySQL/MariaDB 增量数据到TiDB。
架构
适合的场景