TiSpark跟TiDB版本兼容性问题

【 TiDB 使用环境】生产环境
【 TiDB 版本】7.1.3
【 Spark 版本】3.1.3
【 TiSpark 版本】用的还是旧的tispark-assembly-3.1-2.5.2.jar
【遇到的问题:问题现象及影响】tidb升级到7版本后,用pyspark无法连接到tidb
【问题截图】 官网没有给出tidb7.x对应tispark版本问题,如何解决?



如果用 tispark 版本弄到6.5

之前好用的么?pd 信息配置对了?


另外,直接用tikv/tiflash就好了

tispark现在不维护了,但是用最新的 Tispark 3.1.x 是可以再 7.1以上版本的数据库抽数的,
但是建议最好找个替代方案,tispark不维护了

另外,看报错,你PD 的地址,写正确了吗,网络策略通不通

这个报错感觉和版本无关,感觉是 pd spark 连不上。

tispark 是 spark 访问tikv集群的一个薄层,在spark启动的时候会通过tispark 去注册集群的pd地址,以获取集群的库表等元数据信息。

看楼主贴的报错信息,是spark在启动的时候无法向pd去注册。所以,可以排查确认下:

  1. 当前集群访问是否正常?
  2. pd 的ip地址和端口是否正常?
  3. yarn 集群,包括 spark driver等spark集群的机器访问 目标tidb集群的网络是否正常?

先排查看看。

试一下使用最新的 3.2.x 版本

tidb版本7.1.1,生产环境使用spark3.3.x和3.1.x都使用过, tispark 使用 tispark-assembly-3.3_2.12-3.1.3.jar ,目前正常使用,未出现异常,建议你还是排查下pd的连接问题

看看升级版本试试,升级能解决bug

看下这个
image

升级版本试试

升级版本试试看

  • 检查TiSpark版本:确保您使用的TiSpark版本与TiDB 7.0版本兼容。通常,TiDB官方网站会提供与新版本TiDB兼容的TiSpark版本信息。
  • 更新依赖:如果您使用的是旧版本的TiSpark,您可能需要更新到与TiDB 7.0兼容的版本。这可能涉及到卸载旧版本的TiSpark和安装新版本。
  • 检查配置参数:检查您的PySpark配置参数,确保它们符合TiDB 7.0的要求。特别是spark.tispark.pd.addresses参数,它应该指向TiDB PD (Placement Driver) 的地址。