为提高效率,提问时请提供以下信息,问题描述清晰可优先响应。
- 【TiDB 版本】:3.0
- 【问题描述】:
Tidb可以用于大数据场景吗,hive上的1000亿条数据怎么快速迁移到tidb?
为提高效率,提问时请提供以下信息,问题描述清晰可优先响应。
Tidb可以用于大数据场景吗,hive上的1000亿条数据怎么快速迁移到tidb?
是指 TiDB 替代 Hive 使用吗?目前大数据场景可以考虑使用 TiDB + TiSpark 的模式。
另外 4.0 版本中有发布 TiFlash,行列混合存储,实现 HTAP 的也可以了解一下
现在头疼的是hive里的数据大,怎么快速把数据迁移到tidb
hive 也是结构化的,读出来往 tidb 写就可以了 Sqoop 工具能满足你们的需求吗,因为都是通过 SQL 方式写入 TiDB,所以导入数据速度主要还是受限于 TiDB 的写入
现在就是tidb写入很慢,可以怎么办,这么庞大的数据
是 TiDB 集群写入达到瓶颈了吗,如果有有瓶颈,可以考虑提升配置或者扩容节点。
如果没有达到瓶颈,可以考虑提高写入并发。
快速导入目前只有针对 mydumper 导出的数据,可以通过 lightning 将数据整合快速导入集群
https://pingcap.com/docs-cn/dev/reference/tools/tidb-lightning/overview/
Tidb单表可以支持多大的数据量呢,万亿级别的能支持吗
理论上是可以的,只要 tikv 节点足够的话,具体还是得看实际的使用情况
可以将hive表里边的数据导成csv,然后通过lightning 来进行导入,目前正在操作中,效率还不错。
现在导入主要可以通过 lightning 批量。另外 4.0 的大事务配合 TiSpark 也可以做批量 ETL,可以到时候升级了试试看。
什么时候可以升级呢,4.0的docker版出了吗
4.0 在 TiDB 层支持 10G 的大事务,欢迎试用新版本测试,4.0 版本目前还是 beta 版本,部分 feature 持续开发中,计划 5月底发布 GA 版本。
此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。