在 HPC 集群中使用 i7“游戏玩家”CPU

在 HPC 集群中使用 i7“游戏玩家”CPU

我正在运行 WRF 天气模型。这是一个内存密集型、高度并行的应用程序。

我需要为此构建一个 HPC 集群。我使用 10GB 无限带宽互连。

WRF 不取决于核心数量,而是取决于内存带宽。这就是为什么 core i7 3820 或 3930K 的性能优于高级 xeon E5-2600 或 E7

似乎大学使用 xeon E5-2670 进行 WRF。它的成本约为 1500 美元。Spec2006 fp_rates WRF 基准测试显示,580 美元的 i7 3930K 在 1600MHz RAM 下的性能相同。

有趣的是,i7 可以处理高达 2400MHz 的 RAM,大大提升了 WRF 的性能。然后它真的胜过 Xeon。功耗稍高一些,但每年仍不到 20 欧元。即使包括我需要的额外部件(PSU、infiniband、机箱),i7 方式仍然比 Xeon 便宜 700 欧元/CPU。

那么,在 HPC 集群中使用“游戏玩家”硬件可以吗?还是我应该使用 xeon 来做到这一点?

(这不是一个关键应用程序。我可以处理停机时间。我想我不需要 ECC?)

答案1

我们在高频金融交易领域做过一小段时间的这项工作(考虑到我所使用的应用程序架构,与 HPC 非常相似)...

大约在 2010 年初,我部署了定制的 3U 机架式、单插槽 i7“游戏系统”,10GbE Solarflare(和开放加载UDP 消息内核旁路)和/或 Infiniband 互连。

我没有 IPMI/带外管理、没有电源管理、单电源和没有热插拔部件。我们在不同点使用了 SSD 和内部 SAS 磁盘,但磁盘对计算节点来说并不重要。操作系统是 Fedora Linux,具有高度定制和调整的内核。

这在概念验证中是有效的,并且一直延续到我们了解我们的交易应用程序在生产中对实时数据的反应。然而,随着事情的发展,这变成了一场管理噩梦……

冷却、数据中心热量/空间/密度(这些东西都是 3U 箱)、支持和远程管理等问题最终使这一努力付诸东流。虽然 CPU 从技术上从未出现故障,其他所有组件都有问题!。而且这还只是每天 8 小时的生产使用周期……

我们长期做了什么?

我们放弃了游戏玩家电脑,转而使用专门打造的服务器硬件。是的,这是一家金融公司,所以我们没有预算限制,但我仍然需要考虑定价问题,考虑到未经验证的应用程序的潜在规模。所有价格范围内都有不错的服务器,如果您打算扩大规模,可以与制造商达成交易。您不认为大型 HPC 研究实验室集群会以零售价购买设备,对吗?我们也不认为......

所以,如果你想这样做,请从大局考虑。如果你只是想在服务器级硬件中使用桌面级 CPU,那么它可以工作……但我不建议全职使用它。

如果您了解其中的 CPU 限制和可用性问题,那么我只能提供一个数据点供考虑。

答案2

i7 无法使用 ECC 缓冲 RAM,也无法安装在双插槽或四插槽配置中。这似乎是不使用它的充分理由 - 但当然,您的需求可能会有所不同。

答案3

我个人还是倾向于 Xeon,因为它的设计目标是在更长的时间内支持更多的并发负载。如果你在较长的一段时间内(比如说几个小时或几周)运行 CPU 密集型工作,那么 Xeon 的平均故障时间会比 i7 长得多。

除此之外,我尊重@MDMarra 关于服务器负载的回应。

答案4

这是一个内存密集型、高度并行的应用程序。

听起来,每核 CPU 功率并不是最重要的,重要的是您可以装入机箱的核数和 RAM 数量,以便更快地扩展。考虑到这一点,也许您想考虑使用16 核 Opteron在一个双CPU配置。它可能无法支持 DDR3-2400,但您可以在 32 个 CPU 核心上安装 256GB 的 DDR3-1600。

相关内容