设置环境变量后我的 pyspark 在 ubuntu 中失败

设置环境变量后我的 pyspark 在 ubuntu 中失败

我从 anaconda 安装了 pyspark

  $ conda install pyspark

之后在我的 jupyter 笔记本中它运行良好,但在教程中 https://mortada.net/3-easy-steps-to-set-up-pyspark.html 提到你必须设置环境变量,例如

  $ export SPARK_HOME=~/spark-2.2.0-bin-hadoop2.7
  $ export PYSPARK_PYTHON=~/anaconda/bin/python

当我尝试在 jupyter 笔记本中重新运行 pyspark 时,出现了下一个错误

FileNotFoundError:[Errno 2] 没有这样的文件或目录:'/home/jogabell/Documentos/programas/spark-2.4.7-bin-hadoop2.7/./bin/spark-submit':'/home/jogabell/Documentos/programas/spark-2.4.7-bin-hadoop2.7/./bin/spark-submit'

我的 jupyter 笔记本如下所示:

  from pyspark import SparkContext 
  sc = SparkContext(master="local[4]")
  print(sc)

请帮我修复它。

答案1

我解决了。

首先,它缺少“spark-2.4.7-bin-hadoop2.7”文件,因此我从https://spark.apache.org/downloads.html. 然后将 tar 文件解压到以下路径(就我而言):/home/jogabell/Documentos/programas

就这些了。

相关内容