Tidb可以用于大数据场景吗,hive上的1000亿条数据怎么快速迁移到tidb?

为提高效率,提问时请提供以下信息,问题描述清晰可优先响应。

  • 【TiDB 版本】:3.0
  • 【问题描述】:

Tidb可以用于大数据场景吗,hive上的1000亿条数据怎么快速迁移到tidb?

是指 TiDB 替代 Hive 使用吗?目前大数据场景可以考虑使用 TiDB + TiSpark 的模式。
另外 4.0 版本中有发布 TiFlash,行列混合存储,实现 HTAP 的也可以了解一下

现在头疼的是hive里的数据大,怎么快速把数据迁移到tidb

hive 也是结构化的,读出来往 tidb 写就可以了 Sqoop 工具能满足你们的需求吗,因为都是通过 SQL 方式写入 TiDB,所以导入数据速度主要还是受限于 TiDB 的写入

现在就是tidb写入很慢,可以怎么办,这么庞大的数据

是 TiDB 集群写入达到瓶颈了吗,如果有有瓶颈,可以考虑提升配置或者扩容节点。
如果没有达到瓶颈,可以考虑提高写入并发。

快速导入目前只有针对 mydumper 导出的数据,可以通过 lightning 将数据整合快速导入集群

https://pingcap.com/docs-cn/dev/reference/tools/tidb-lightning/overview/

Tidb单表可以支持多大的数据量呢,万亿级别的能支持吗

理论上是可以的,只要 tikv 节点足够的话,具体还是得看实际的使用情况

可以将hive表里边的数据导成csv,然后通过lightning 来进行导入,目前正在操作中,效率还不错。

  1. 感谢反馈,如果操作完后,可以分享给大家你的同步方案。
  2. 可以参考下知乎的案例 https://pingcap.com/cases-cn/user-case-zhihu/ , 他们当前最大表应该是1.82万亿

现在导入主要可以通过 lightning 批量。另外 4.0 的大事务配合 TiSpark 也可以做批量 ETL,可以到时候升级了试试看。

什么时候可以升级呢,4.0的docker版出了吗

4.0 在 TiDB 层支持 10G 的大事务,欢迎试用新版本测试,4.0 版本目前还是 beta 版本,部分 feature 持续开发中,计划 5月底发布 GA 版本。

此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。