用pytispark写入从tidb的一个表写到另一个表性能很差

TiDBer_杨大侠 · 2023 年10 月 19 日 01:56

如图，
用pytispark 执行isert into table t1 as select * from s1
这样简单的数据导入，大概两小时才能导入四千万条数据，有什么参数可以优化么？

TiDBer_小阿飞 · 2023 年10 月 19 日 02:01

shiyuhang0 · 2023 年10 月 19 日 05:32

写时候的读取是用于冲突等判断
根据之前的 bechmark, 4000w 的数据用 tispark / spark jdbc 应该都是分钟级别的。如果不需要全局事务还是建议 spark jdbc
你现在的并发度是多少，benchmark 里的是 32。如果低了可以增加 executor 数量/核心数来增加并发

数据小黑 · 2023 年10 月 19 日 07:39

有具体的代码么？看看你是哪种写入方式？

xfworld · 2023 年10 月 19 日 07:41

直接 jdbc就好了