安装Spark之前先安装hadoop

安装Spark之前先安装hadoop

我在 virtualbox 上全新安装了 Ubuntu Server。我的目标是实现以下目标。

  1. 安装 Hadoop 和 Spark;
  2. 使用 Hadoop 的 HDFS 作为存储,在 Hadoop 上运行 Spark;
  3. 安装 Jupyter 并开发/运行 Scala 和 Pyspark。

Hadoop 将作为单个节点运行。我的问题是

  1. 我是否先安装 Hadoop,配置它,然后再安装 Spark?
  2. 如何安装和运行带有 Scala 内核的 Jupyter 来使用 Spark 和 Hadoop 运行应用程序?

如有任何回应和/或对演练的指示,我们将不胜感激。

答案1

正如您所说,它是“基于 Hadoop 的”Spark,所以是的,您应该从 Hadoop(HDFS/YARN)开始,当您拥有一个工作集群(distributedshell 是一个很好的测试实用程序)时,您可以安装 Spark。您只需要在边缘节点(用户的机器)上使用 spark,但由于它是一个单节点集群,我猜一切都会并行运行。这样配置就更简单了,因为所有 Hadoop 依赖项和环境变量都应该已经正确设置。

您可以指定 pyspark (spark python 模块) 应使用哪个 python 可执行文件。它可以轻松地成为 jupyter:

export PYSPARK_DRIVER_PYTHON=jupyter
export PYSPARK_DRIVER_PYTHON_OPTS='notebook'

然后,启动“pyspark”将打开一个笔记本,它将是你的 Spark 驱动程序。

我正在使用 Hadoop 3,因此,如果您希望使用 GPU,我建议您暂时使用 Hadoop 2.9.xx。Spark 在 Hadoop 3.x 下没有经过太多测试,因此启动和运行起来很麻烦。

相关内容