适用于 CUDA 的可扩展商品 GPU 服务器选项?

适用于 CUDA 的可扩展商品 GPU 服务器选项?

我正在做一些机器学习工作,使用 GPU 会给我带来很大的好处。我目前的设置有点受限(一台工作站,只有一台 GTX580),家里真的没有空间再放一台电脑了。所以我想建立一个 GPU 服务器(很可能是好几台),并试图找到最经济有效的方法。

理想情况下,我想构建类似 NVidia 的特斯拉服务器(例如 s2075)的东西,但使用 GTX580 而不是特斯拉卡。这将 4 张卡装入 1u 机箱,然后通过 PCI-e 扩展器连接到主机系统。这种 DIY 版本似乎不存在。

所以我的下一个计划是使用 4u,基本上在其中安装一个标准四路 SLI 构建。我可能会使用 2 个 850 瓦电源为 4 张卡供电。冷却也可能是一个问题。

我的问题具体如下:

  • 如果我主要使用 GPU 并且仅使用 CPU 来处理基本逻辑和内容,那么使用 i3 这样的低端 CPU 是否合理?
  • 如果我想共置,这会不会相当昂贵/消耗大量电力?
  • 我的做法是否错误?是否有更简单/更具成本效益的方法来构建 GPU 数字计算器,而不是将它们放在我的公寓里?

答案1

我做了更多的研究,我将亲自回答这个问题,以防有人发现自己想做类似的事情。

AWS(和其他供应商)提供 GPU 云计算服务。这对某些应用程序非常有用,但肯定不是所有应用程序。据我所知,虚拟化的 GPU 集群往往比他们宣传的实际硬件慢,而且如果你经常使用它,它们会很昂贵。构建自己的硬件可能有意义的应用程序包括 3D 渲染和某些类型的机器学习,这些应用程序受益于使用 GPU。如果你只是进行定期的数字运算,云 GPU 是一个不错的选择。

所以,回到我最初的问题——GPU 服务器的最佳性价比是什么。 目前,与价格昂贵得多的 Tesla 和 Quadro 显卡相比,GTX580(约 400 美元)性价比很高,性能也相当。Quadro 6000 目前售价 6,000 美元,在 GPGPU 基准测试(具体来说,NQueens)上的表现与 580 差不多。Tesla 拥有更多的板载内存。680 的 GPGPU 性能不佳,性能不如 580。因此,在 2012 年中后期,购买 GTX 580 吧。

四路 SLI 似乎并不一定值得。4x SLI 的速度不会快 4 倍。但您仍然可以使用 2 个 2x SLI 将 4 个 GPU 放入您的系统中,这似乎是一个相当不错的权衡。或者将它们保留为单独的卡。

如果要将其放入机架中,似乎需要 4u 机箱。您可能需要 2 个 750 瓦电源。

关于 CPU——我无法得到直接的答案。就我个人而言,我可能会选择低端 i5,而不是 i3。

从那里开始,只要根据需要构建尽可能多的系统,将它们放在机架(主机托管或服务器机房)中,就可以开始了。您可能希望每台设备的价格不到 2500 美元,而理论上 4 台 gtx580 可实现 6 tflops。这非常划算。

相比之下,nvidia tesla s1070 的浮点运算速度为 4 TFlops,价格约为 8,000-10,000 美元。但这是“企业”级的价格,性能却要便宜得多。

我也对电费感到好奇,但我无法得到直接的答案,我怀疑电费会很高。

答案2

大多数服务器机箱的设计都无法承受 4 张卡产生的热量。而且听起来您的应用程序会将卡推向峰值水平。您肯定需要密切监控各个卡的温度以及处理器的温度。您很可能需要额外的风扇,甚至需要液体冷却解决方案。

另一个问题是噪音。如果是在托管空间,那就没什么大不了的。但是,你说这可能会出现在你的公寓里,这可能是一个问题。消费级显卡上的风扇因供应商而异。即使是显卡上的“安静”风扇也会有噪音,你会把噪音乘以 4,更不用说用于冷却的任何额外风扇了。同样,液体冷却解决方案可能是一个很好的解决方案。

答案3

如果您需要单浮点性能,请选择 GTX680,它的能效也更高,您不需要支付那么多电费。如果您需要双浮点性能,请选择 GTX 580。
看看博客文章。
此外,renderstream 还博客文章关于 8GPU 4U 服务器。它的价格是 14k 美元。修复了 BIOS 使其能够与所有 8 张卡一起工作。我认为仅仅是准系统服务器就需要 3k 美元。
我也希望将来能建造这样的机器,我还不确定是否值得这么麻烦,只是在需要时租用一台。分摊成本并共享一台机器可能是一个好主意,但我们最终可能会互相踩脚趾。

答案4

我很确定亚马逊提供这样的东西。

很可能比你能做到的要便宜得多。

http://aws.amazon.com/hpc-applications/

http://hpc.nomad-labs.com/archives/65

这将消除您要做的事情中的许多复杂性。

相关内容