我从 anaconda 安装了 pyspark
$ conda install pyspark
之后在我的 jupyter 笔记本中它运行良好,但在教程中 https://mortada.net/3-easy-steps-to-set-up-pyspark.html 提到你必须设置环境变量,例如
$ export SPARK_HOME=~/spark-2.2.0-bin-hadoop2.7
$ export PYSPARK_PYTHON=~/anaconda/bin/python
当我尝试在 jupyter 笔记本中重新运行 pyspark 时,出现了下一个错误
FileNotFoundError:[Errno 2] 没有这样的文件或目录:'/home/jogabell/Documentos/programas/spark-2.4.7-bin-hadoop2.7/./bin/spark-submit':'/home/jogabell/Documentos/programas/spark-2.4.7-bin-hadoop2.7/./bin/spark-submit'
我的 jupyter 笔记本如下所示:
from pyspark import SparkContext
sc = SparkContext(master="local[4]")
print(sc)
请帮我修复它。
答案1
我解决了。
首先,它缺少“spark-2.4.7-bin-hadoop2.7”文件,因此我从https://spark.apache.org/downloads.html. 然后将 tar 文件解压到以下路径(就我而言):/home/jogabell/Documentos/programas
就这些了。