有人建议我为公司学习 Hadoop,因此我想构建一个测试环境。
我工作的公司有一个配备 VMware vCloud 基础架构的数据中心,他们使用该数据中心向其他公司出售私有云。
我可以使用一些 CPU、RAM、网络和存储,但似乎无法在小型测试环境中找到 Hadoop 的基本要求。
我正在考虑启动一个作为单节点集群运行的单个虚拟机,执行一些简单的工作,例如分析数千个 PDF 文档中的关键字、提取段落并重新格式化为单个 HTML 文档。
有人能建议我应该为这台虚拟机提供哪些最低要求吗,或者我可以在哪里找到这些信息。
谢谢。
答案1
如果您只是想了解 Hadoop 的工作原理,我建议您在虚拟机上获取可用的发行版之一。这些发行版旨在为您提供小型学习环境,让您在一个节点内运行伪分布式集群。
可能还有其他的;这些只是我能想到的。
如果您想构建自己的虚拟机,答案是:视情况而定。
您可能一开始就需要 8-16GB 的 RAM、几百 GB 的磁盘空间和 2-4 个 CPU 核心。这足以让您在伪分布式配置中工作。
如果您正在谈论构建一个小型集群,您可能需要 4 个节点:1 个 namenode(2-4G 内存、1-2 个 CPU)、3 个 datanode(4-8GB 内存,您想要/需要的任意大小的空间)。这足以让您获得一个运行的 HDFS 和 Mapreduce 环境,并让您体验设置和运行集群。如果您选择这种方式,您可能想要查看Cloudera的经理或者Ambari 与 Hortonworks。
编辑:
我差点忘了: VMware 塞伦盖蒂由于您使用的是 VMware 基础架构,因此这可能会引起您的兴趣。