我可以通过软件中心在其上获取 Spark,但是如何获取 pyspark 呢?
答案1
pyspark
可通过 获得pypi
。
因此您需要安装pyspark
并pip
执行以下命令。
pip install pyspark
或者sudo pip install pyspark
答案2
pyspark
是一个用Scala编写的与spark程序的python绑定。
只要你有 Java 6+ 和 Python 2.6+,你就可以从下载页面。确保java
和python
程序在您的PATH
或JAVA_HOME
环境变量已设置。请按照以下步骤开始;
解压并将解压后的目录移动到工作目录:
tar -xzf spark-1.4.0-bin-hadoop2.6.tgz
mv spark-1.4.0-bin-hadoop2.6 /srv/spark-1.4.8
将 Spark 版本符号链接到
spark
目录:ln -s /srv/spark-1.4.8 /srv/spark
~/.bash_profile
使用您最喜欢的文本编辑器进行编辑并添加Spark
到您的PATH
并设置SPARK_HOME
环境变量:export SPARK_HOME=/srv/spark
export PATH=$SPARK_HOME/bin:$PATH
现在您应该能够通过pyspark
在终端中运行命令来执行 pyspark。
一些参考资料:
https://spark.apache.org/docs/0.9.0/python-programming-guide.html
https://districtdatalabs.silvrback.com/getting-started-with-spark-in-python