其实我有个观念不知道对不对:
pyspark其实还是用的spark的rdd机制在做计算,pyspark使用python的那些库,其实还是单机利用,能想到的场景是类似通过rdd的foreachpartition算子,让数据片(partition)在分布式环境中的多台机器利用python库计算,python并没有做分布式计算。
可能有点绕口,不知道这个认知跟你们的场景对不对的上。
2 个赞
其实我有个观念不知道对不对:
pyspark其实还是用的spark的rdd机制在做计算,pyspark使用python的那些库,其实还是单机利用,能想到的场景是类似通过rdd的foreachpartition算子,让数据片(partition)在分布式环境中的多台机器利用python库计算,python并没有做分布式计算。
可能有点绕口,不知道这个认知跟你们的场景对不对的上。