如何部署tispark?

fu-r · 2020 年5 月 27 日 04:01

查了一些文档，没找到在4.0下部署tispark的相关文档，有没有详细的部署tispark的步骤？

yilong · 2020 年5 月 27 日 04:50

请问，是使用 tiup 部署吗？

来了老弟 · 2020 年5 月 27 日 04:59

tispark 部署可以看下下面链接：

https://pingcap.com/docs-cn/stable/tispark-overview/

fu-r · 2020 年5 月 27 日 05:15

tispark可以用tiup部署吗？如果可以，该怎么做？

fu-r · 2020 年5 月 27 日 05:20

这个文档其实我看过很多遍了，不是很明白

fu-r · 2020 年5 月 27 日 05:37

我下载了spark-2.4.5-bin-hadoop2.7.tgz和 tispark-core-2.1.9-spark_2.4-jar-with-dependencies.jar，这样搭配对吧？

来了老弟 · 2020 年5 月 27 日 06:05

搭配方式可以看下文档中的描述，很清晰哈。

现有 TiSpark 2.x 版本支持 Spark 2.3.x 和 Spark 2.4.x。如果你希望使用 Spark 2.1.x 版本，需使用 TiSpark 1.x。

tiup 不支持部署 tispark，tispark 部署方式在文档中也是有体现的。如果部署中遇到什么具体问题，可以贴出来看下

fu-r · 2020 年5 月 27 日 08:31

已经部署了两个slave节点的spark，测试了spark-sql是能查询到数据的
疑问是：

spark.tispark.pd.addresses 192.168.1.100:2379

这行配置，我有多个pd的地址，在slave节点上，任意选一个pd地址，还是每个slave节点选不同的pd地址？

同样的sql查询语句，为什么执行时间差别这么大？我有两个spark slave节点，两个tiflash节点。

birdstorm · 2020 年5 月 27 日 09:38

需要指定所有的 pd 地址，并用逗号隔开。

至于不同的运行时间，应该是 tispark 的 plan 不如 tidb 所做的优化，可以通过 explain select … 语句来看一下 TiDB 和 TiSpark 分别选择了什么执行计划。

fu-r · 2020 年5 月 27 日 10:04

谢谢，我这个spark的界面，看上去运行正常嘛？

birdstorm · 2020 年5 月 27 日 10:17

正常的

birdstorm · 2020 年5 月 27 日 10:41

若使用 spark-shell/spark-sql，应该会在 running application 处看到对应的 spark-shell/spark-sql 应用。

若没有看到，可能你的 spark-shell 并没有连接到 spark 集群。请确认使用了 --master 参数指定了你的 spark master 地址。

fu-r · 2020 年5 月 27 日 12:41

谢谢，我不知道还要使用–master参数，所以没有看到running applications里有东西，经过您的指点，我使用了–master参数之后，可以在running applications处看到有东西在跑。但是还有个疑问，我启动了一个spark-sql之后，看到它是running，再另一台机上启动了另一个spark-sql之后，看到它在waiting，只有前一个running的结束后，waiting的才会变成running，这个正常吗？也就是同时只能有一个running?

birdstorm · 2020 年5 月 27 日 15:10

可以参考这里的文章，希望能帮到你 https://forums.databricks.com/questions/11677/how-to-run-multiple-spark-job-simultanously-in-the.html