MapReduce 和 Hadoop:它们擅长解决哪些问题?

MapReduce 和 Hadoop:它们擅长解决哪些问题?

据我了解,两者似乎具有类似的功能(除了 MapReduce 是 Google 专有的,而 Hadoop 是开源的)。

我想知道的不是“它们是如何工作的”,而是它们通常用于解决的一些问题。我知道它们采用并行输入(或使它们并行)。MapReduce 和 Hadoop 是否用于通用并行计算,或者问题是否需要更具体才能更好地适应这两个模型?

答案1

别忘了Hadoop MapReduce。 :)

MapReduce 的“用途”(根据维基百科):

MapReduce 适用于多种应用,包括:分布式 grep、分布式排序、Web 链接图反转、每个主机的术语向量、Web 访问日志统计、倒排索引构建、文档聚类、机器学习和统计机器翻译。此外,MapReduce 模型已适应多种计算环境,如多核和众核系统、桌面网格、志愿者计算环境、动态云环境和移动环境。

在 Google,MapReduce 被用来完全重建 Google 的万维网索引。

它取代了更新索引和运行各种分析的旧的临时程序。

查看这一页了解使用 Hadoop 的众多组织及其用途。

以下列出几个“B”,例如:

巴巴汽车 ◦ 4 节点集群(32 核,1TB)。

◦ 我们使用 Hadoop 搜索和分析数百万个租赁预订。

百度- 领先的中文搜索引擎 ◦ 使用Hadoop进行搜索日志分析和网页数据库挖掘工作

◦ 我们每周处理约 3000TB

◦ 我们的集群从 10 个节点到 500 个节点不等

◦ 百度也支持 Hypertable

比布勒 ◦ 14 节点集群(每个节点有:2 个双核 CPU、2TB 存储、8GB RAM)

◦ 我们使用 Hadoop 来匹配约会资料

贝尼帕尔技术公司- 外包、咨询、创新◦ 35 节点集群 (Core2Quad Q9400 处理器、4-8 GB RAM、500 GB HDD)

◦ 最大的数据节点,配备 Xeon E5420*2 处理器、64GB RAM、3.5 TB HDD

◦ 千兆网络上的总集群容量约为 20 TB,具有故障转移和冗余功能

◦ Hadoop 用于内部数据处理、应用程序开发、测试和解决 I/O 限制

相关内容