Hadoop 单节点集群内存和存储要求

Hadoop 单节点集群内存和存储要求

有人建议我为公司学习 Hadoop,因此我想构建一个测试环境。

我工作的公司有一个配备 VMware vCloud 基础架构的数据中心,他们使用该数据中心向其他公司出售私有云。

我可以使用一些 CPU、RAM、网络和存储,但似乎无法在小型测试环境中找到 Hadoop 的基本要求。

我正在考虑启动一个作为单节点集群运行的单个虚拟机,执行一些简单的工作,例如分析数千个 PDF 文档中的关键字、提取段落并重新格式化为单个 HTML 文档。

有人能建议我应该为这台虚拟机提供哪些最低要求吗,或者我可以在哪里找到这些信息。

谢谢。

答案1

如果您只是想了解 Hadoop 的工作原理,我建议您在虚拟机上获取可用的发行版之一。这些发行版旨在为您提供小型学习环境,让您在一个节点内运行伪分布式集群。

  1. Cloudera 快速启动虚拟机
  2. Hortonworks 沙箱
  3. MapR虚拟机

可能还有其他的;这些只是我能想到的。

如果您想构建自己的虚拟机,答案是:视情况而定。

您可能一开始就需要 8-16GB 的 RAM、几百 GB 的磁盘空间和 2-4 个 CPU 核心。这足以让您在伪分布式配置中工作。

如果您正在谈论构建一个小型集群,您可能需要 4 个节点:1 个 namenode(2-4G 内存、1-2 个 CPU)、3 个 datanode(4-8GB 内存,您想要/需要的任意大小的空间)。这足以让您获得一个运行的 HDFS 和 Mapreduce 环境,并让您体验设置和运行集群。如果您选择这种方式,您可能想要查看Cloudera的经理或者Ambari 与 Hortonworks

编辑:

我差点忘了: VMware 塞伦盖蒂由于您使用的是 VMware 基础架构,因此这可能会引起您的兴趣。

相关内容