TiDB 的问答社区
用pytispark写入从tidb的一个表写到另一个表性能很差
🛸 其他技术问题
TiSpark
导入导出
,
TiSpark-v3
TiDBer_杨大侠
(Ti D Ber Lu Fy Ex Xz)
2023 年10 月 19 日 01:56
1
20231019_095441
1920×1440 205 KB
如图,
用pytispark 执行isert into table t1 as select * from s1
这样简单的数据导入,大概两小时才能导入四千万条数据,有什么参数可以优化么?
TiDBer_小阿飞
2023 年10 月 19 日 02:01
2
shiyuhang0
2023 年10 月 19 日 05:32
4
写时候的读取是用于冲突等判断
根据之前的 bechmark, 4000w 的数据用 tispark / spark jdbc 应该都是分钟级别的。如果不需要全局事务还是建议 spark jdbc
你现在的并发度是多少,benchmark 里的是 32。如果低了可以增加 executor 数量/核心数来增加并发
数据小黑
(数据小黑)
2023 年10 月 19 日 07:39
5
有具体的代码么?看看你是哪种写入方式?
xfworld
(魔幻之翼)
2023 年10 月 19 日 07:41
6
直接 jdbc就好了
©2023 TiDB Community.
京ICP备20022552号-5
京公网安备11010802043344号