如何在 Ubuntu 上获取 pyspark?

如何在 Ubuntu 上获取 pyspark?

我可以通过软件中心在其上获取 Spark,但是如何获取 pyspark 呢?

答案1

pyspark可通过 获得pypi

因此您需要安装pysparkpip执行以下命令。

pip install pyspark或者sudo pip install pyspark

答案2

pyspark是一个用Scala编写的与spark程序的python绑定。

只要你有 Java 6+ 和 Python 2.6+,你就可以从下载页面。确保javapython程序在您的PATHJAVA_HOME环境变量已设置。请按照以下步骤开始;

  1. 解压并将解压后的目录移动到工作目录:

    tar -xzf spark-1.4.0-bin-hadoop2.6.tgz

    mv spark-1.4.0-bin-hadoop2.6 /srv/spark-1.4.8

  2. 将 Spark 版本符号链接到spark目录:

    ln -s /srv/spark-1.4.8 /srv/spark

  3. ~/.bash_profile使用您最喜欢的文本编辑器进行编辑并添加Spark到您的PATH并设置SPARK_HOME环境变量:

    export SPARK_HOME=/srv/spark

    export PATH=$SPARK_HOME/bin:$PATH

现在您应该能够通过pyspark在终端中运行命令来执行 pyspark。

一些参考资料:

https://spark.apache.org/docs/0.9.0/python-programming-guide.html

https://districtdatalabs.silvrback.com/getting-started-with-spark-in-python

相关内容