Tidb可以用于大数据场景吗，hive上的1000亿条数据怎么快速迁移到tidb？

Hacker_BTXRr634 · 2020 年3 月 5 日 07:28

为提高效率，提问时请提供以下信息，问题描述清晰可优先响应。

GangShen · 2020 年3 月 5 日 07:48

是指 TiDB 替代 Hive 使用吗？目前大数据场景可以考虑使用 TiDB + TiSpark 的模式。
另外 4.0 版本中有发布 TiFlash，行列混合存储，实现 HTAP 的也可以了解一下

Hacker_BTXRr634 · 2020 年3 月 5 日 07:50

现在头疼的是hive里的数据大，怎么快速把数据迁移到tidb

GangShen · 2020 年3 月 5 日 08:14

hive 也是结构化的，读出来往 tidb 写就可以了 Sqoop 工具能满足你们的需求吗，因为都是通过 SQL 方式写入 TiDB，所以导入数据速度主要还是受限于 TiDB 的写入

Hacker_BTXRr634 · 2020 年3 月 5 日 08:24

现在就是tidb写入很慢，可以怎么办，这么庞大的数据

GangShen · 2020 年3 月 5 日 08:36

是 TiDB 集群写入达到瓶颈了吗，如果有有瓶颈，可以考虑提升配置或者扩容节点。
如果没有达到瓶颈，可以考虑提高写入并发。

快速导入目前只有针对 mydumper 导出的数据，可以通过 lightning 将数据整合快速导入集群

Hacker_BTXRr634 · 2020 年3 月 5 日 08:44

Tidb单表可以支持多大的数据量呢，万亿级别的能支持吗

GangShen · 2020 年3 月 5 日 08:52

理论上是可以的，只要 tikv 节点足够的话，具体还是得看实际的使用情况

Hacker_lqNVmgtF · 2020 年3 月 5 日 09:49

可以将hive表里边的数据导成csv，然后通过lightning 来进行导入，目前正在操作中，效率还不错。

yilong · 2020 年3 月 5 日 11:58

Hacker_t9OJsnDa · 2020 年3 月 5 日 14:58

现在导入主要可以通过 lightning 批量。另外 4.0 的大事务配合 TiSpark 也可以做批量 ETL，可以到时候升级了试试看。

Hacker_BTXRr634 · 2020 年3 月 6 日 02:22

什么时候可以升级呢，4.0的docker版出了吗

qizheng · 2020 年3 月 6 日 02:52

4.0 在 TiDB 层支持 10G 的大事务，欢迎试用新版本测试，4.0 版本目前还是 beta 版本，部分 feature 持续开发中，计划 5月底发布 GA 版本。

system · 2022 年10 月 31 日 19:05

此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。