pytispark有适配spark3.1.x的版本吗

pypi上的pytispark2.0依赖的spark2.3.3提交时间2019.3.26请教一下有适配spark3的pytispark版本吗

2赞

目前还没有支持 spark3 的版本

2赞

TiSpark 支持 spark3 的版本是有的, pytispark 应该是好久没有发版了,我去问问之前怎么发版的,目前应该是没有支持。

2赞

tispark在spark3.1.3的环境下已经跑过测试了,就是pytispark跑不通

1赞

是不是以前的业务有使用pyspark的?无论从业界还是社区的实践,java或者scala的多一些,这方面能提供的帮助比较多。

1赞

有一些team是用pyspak的只是了解一下tidb在这方面的能力

1赞

我们团队用pyspark的少,就是想交流一下,采用的pyspark的team是以前的开发语言是python所以转到了pyspark,还是pyspark有spark在当前业务场景下不具有的能力,所以采用的pyspark,这一块您了解么?因为最近社区,最近问pyspark的也比较多,想了解一些这方面的情况。

1赞

据我了解有一部分是因为python下轮子比较多所以有一部分非关键性的业务和poc工作是在pyspark下做的

2赞

我们也有上述场景,不过都是单机环境,一个notebook也是解决了大部分场景,非常感谢。

1赞

有一些poc场景需要在在集群上跑批所以计算引擎最好是一致的

1赞

其实我有个观念不知道对不对:
pyspark其实还是用的spark的rdd机制在做计算,pyspark使用python的那些库,其实还是单机利用,能想到的场景是类似通过rdd的foreachpartition算子,让数据片(partition)在分布式环境中的多台机器利用python库计算,python并没有做分布式计算。
可能有点绕口,不知道这个认知跟你们的场景对不对的上。

2赞

因为每个executor都会启动一个python进程,所以在您提到的foreach partition这个场景中每个executor的python进程中的函数会收到一个这个partition的迭代器作为入参进行业务处理,只需在每个executor节点上安装所需要的python库就可以分布式计算。

4赞

我也是同样的需求,用 pyspark,python 的库比较多,数据处理时比较方便
我都是根据需要开一个 emr 集群,启动的时候在各个节点上安装好所有的依赖包,在上面跑 pyspark 任务

2赞