如何部署tispark?

查了一些文档,没找到在4.0下部署tispark的相关文档,有没有详细的部署tispark的步骤?

  1. 请问,是使用 tiup 部署吗?

tispark 部署可以看下下面链接:

https://pingcap.com/docs-cn/stable/tispark-overview/

tispark可以用tiup部署吗?如果可以,该怎么做?

这个文档其实我看过很多遍了,不是很明白

我下载了spark-2.4.5-bin-hadoop2.7.tgz和 tispark-core-2.1.9-spark_2.4-jar-with-dependencies.jar,这样搭配对吧?

搭配方式可以看下文档中的描述,很清晰哈。

现有 TiSpark 2.x 版本支持 Spark 2.3.x 和 Spark 2.4.x。如果你希望使用 Spark 2.1.x 版本,需使用 TiSpark 1.x。

tiup 不支持部署 tispark,tispark 部署方式在文档中也是有体现的。如果部署中遇到什么具体问题,可以贴出来看下

已经部署了两个slave节点的spark,测试了spark-sql是能查询到数据的
疑问是:

spark.tispark.pd.addresses 192.168.1.100:2379

这行配置,我有多个pd的地址,在slave节点上,任意选一个pd地址,还是每个slave节点选不同的pd地址?

image

image

同样的sql查询语句,为什么执行时间差别这么大? 我有两个spark slave节点,两个tiflash节点。

需要指定所有的 pd 地址,并用逗号隔开。

至于不同的运行时间,应该是 tispark 的 plan 不如 tidb 所做的优化,可以通过 explain select … 语句来看一下 TiDB 和 TiSpark 分别选择了什么执行计划。

谢谢,我这个spark的界面,看上去运行正常嘛?

正常的

若使用 spark-shell/spark-sql,应该会在 running application 处看到对应的 spark-shell/spark-sql 应用。

若没有看到,可能你的 spark-shell 并没有连接到 spark 集群。请确认使用了 --master 参数指定了你的 spark master 地址。

谢谢,我不知道还要使用–master参数,所以没有看到running applications里有东西,经过您的指点,我使用了–master参数之后,可以在running applications处看到有东西在跑。 但是还有个疑问,我启动了一个spark-sql之后,看到它是running,再另一台机上启动了另一个spark-sql之后,看到它在waiting,只有前一个running的结束后,waiting的才会变成running,这个正常吗?也就是同时只能有一个running?

可以参考这里的文章,希望能帮到你 https://forums.databricks.com/questions/11677/how-to-run-multiple-spark-job-simultanously-in-the.html