tidb两亿数据迁移到分区表的解决方案。

TiDBer_W8QSBmpH · 2024 年6 月 11 日 13:11

想要了解普通的两亿表数据怎么迁移到同库的分区表下面，目前尝试了flink sql，发现查询会超时，各位大佬有什么实操方法没

Jellybean · 2024 年6 月 11 日 14:18

这么多数据直接迁移必然会有大事务，会有诸多限制，你可以用微批sql切分小事务的方式迁移。

或者使用dumpling +lightning实现并发导出和导入，这么大的数据，也更推荐这个方式。

Kongdom · 2024 年6 月 12 日 00:27

按分区维度拆分成多个逐步迁移可以么？标配下，2亿数据迁移不算多。

tidb菜鸟一只 · 2024 年6 月 12 日 00:40

那还是dumpling+lightning吧。。。。

FutureDB · 2024 年6 月 12 日 00:53

这么大的数据量用Flink SQL不是一种好的方案，不管是从执行效率上还是对数据库的影响层面来说。建议还是按楼上这几位大佬的说法，使用Dumpling导出+Lightning导入的方式，这种方式还是比较稳定并且效率比Flink SQL高不少，我们之前试过，Dumpling导出200G的数据，然后Lightning（Local模式）导入，大概花了不到2个小时。

ziptoam · 2024 年6 月 12 日 01:20

确实，按照dumpling+lightning的方式更合适

鱼跃龙门 · 2024 年6 月 12 日 01:27

用dumpling+lightning的方式，并发导出导入

TiDBer_rvITcue9 · 2024 年6 月 12 日 01:29

使用dumpling +lightning实现并发导出和导入

小于同学 · 2024 年6 月 12 日 02:26

dumpling+lightning

zhanggame1 · 2024 年6 月 12 日 02:50

我刚去掉分区表，分区表在tidb用收益基本只有删除分区，bug很多

vincentLi · 2024 年6 月 12 日 12:47

按照分区键分批从源表select 数据出来，insert into 目标表这个走内存的应该是最快的了。担心大事务的话，搞个存储过程迁移。

zhaokede · 2024 年6 月 13 日 00:57

Tidb社区版没有存过的

TiDBer_HUfcQIJx · 2024 年6 月 13 日 00:59

dumpling+lightning

zhaokede · 2024 年6 月 13 日 01:02

2亿数据，大小估计在100G以内，勉强使用dumpling

zhanggame1 · 2024 年6 月 13 日 22:56

最简单的按主键范围拆多个where ，然后insert into select * from旧表，2亿不算大

vincentLi · 2024 年6 月 16 日 11:29

哦。没看到他说是社区版。。

Kongdom · 2024 年6 月 16 日 13:49

一般习惯默认都是社区版~企业版一般直接找原厂支持了

健康的腰间盘 · 2024 年6 月 26 日 06:18

dumpling+lightning

TiDBer_QKDdYGfz · 2024 年6 月 26 日 07:17

mark这个学习了，后面估计也会迁数据

TiDBer_LM · 2024 年6 月 26 日 08:06

mark,后面要迁移了。。