pytispark有适配spark3.1.x的版本吗

数据小黑 · 2022 年3 月 4 日 08:01

其实我有个观念不知道对不对：
pyspark其实还是用的spark的rdd机制在做计算，pyspark使用python的那些库，其实还是单机利用，能想到的场景是类似通过rdd的foreachpartition算子，让数据片（partition）在分布式环境中的多台机器利用python库计算，python并没有做分布式计算。
可能有点绕口，不知道这个认知跟你们的场景对不对的上。