裸机到大数据:所有这些都可以在同一个集群上一起运行吗?

裸机到大数据:所有这些都可以在同一个集群上一起运行吗?

我是一名非常新的系统管理员(2016 届),我被要求创建一个包含 3 个裸机 PowerEdge 服务器的大数据集群。我有以下请求要放到集群上:

*Hadoop2 *YARN *Java 7&8 *Spark *SBT *Maven *Scala *P7zip *Pig *Hive *R(Spark 和 Hadoop 库)*Zeppelin *Cassandra

我想知道这些是否可以“很好地协同工作”,因为我对大数据知之甚少,搜索结果中有很多“x VS y”页面,而不是“x AND y”。是否有首选的行业标准?

提前感谢您的建议!

答案1

当然,它们可以在这些服务器上共存,尽管通常你会使用一种服务器来保存实际数据,另一种服务器来执行计算繁重的工作。在同一台服务器上运行 Cassandra DB 也有点不标准,但同样,你可以做到这一切,它会起作用,而不仅仅是我所做的事情。

如果服务器尚未订购,而您可以影响其规格,我会尝试做的一件事是为数据准备一组大而慢的磁盘(通常是多 TB 7.2krpm 3.5 英寸磁盘),然后为 DB 和计算工作准备一些 SSD 或 10krpm 磁盘。用一种类型的磁盘运行整个系统通常没有意义。这也会占用大量内存,不要吝啬,而且您可能需要合理数量的 CPU 核心,我认为每台服务器至少需要 12 个或更多 CPU 核心来完成所有这些工作。

无论如何,我希望这会有所帮助,并查看 Cloudera 和 Ambari 的 Hadoop 环境,它们不是免费的,但可以为您省去很多麻烦。

相关内容