考虑在服务器中使用消费级(高端)GPU?

考虑在服务器中使用消费级(高端)GPU?

动机:

首先,即使我对计算机科学、软件开发和服务器 Linux 管理有一些了解,但我从未研究过服务器硬件,对此我完全是个“新手”。如果这个问题对你们大多数人来说微不足道,我很抱歉。

我正在开发一款具有相当密集(单点)计算需求的软件,为了达到所需的 TFlops,我选择了 OpenCL (2.1) 框架并在高端消费级 AMD 显卡上执行大部分计算,主要使用 CPU 来驱动 GPU(Linux 操作系统)。我现在希望通过多台机器来扩展它。

研究如何组织这些机器时,很快就发现标准(消费者)ATX 塔式机箱并不理想:每个品牌都有自己的底盘形状,它们基本上无法轻松方便地堆叠在 19 英寸的机箱中,无法获得良好的冷却气流、共享 APC、电缆管理等。

为了这个目标,我开始寻找带有服务器的机架柜,并发现:

  • 像 Instinct/Tesla 这样为 HPC 设计的 GPU 的成本比消费级 GPU 高出一个数量级,主要是为了实现在消费设备上“速度很慢”的双倍浮点运算(并且因为它们可以以这个价格卖给企业)。
  • 即使有了这些 GPU,也需要 PCI-Express 垫片
  • GPU 就绪服务器仅允许最多 2 个插槽的显卡(当前高端消费级 GPU 通常为 3 个插槽)。
  • 我发现 ATX 3U 或 4U 底盘专为 19 英寸机柜设计。但是嘿!将其中一个与消费硬件一起安装将排除 ECC、多个 APC 等。

问题:

购买用于承载 1 或 2 个消费级 GPU 的服务器需要考虑什么?

我花了很多时间在互联网上查找,但无法对这个问题得到基本的了解,例如,以下是我想到的一些想法:

  • 这是个好主意吗?或者说,这有可能吗?有几篇文章(网页)抱怨这些系统难以协同工作,存在不兼容性、驱动程序问题等。
  • 任何 2U-3U 服务器机箱都可以容纳 3 插槽显卡?还是两块?
  • 一些服务器(例如 Gigabyte Gxxx)是专门为带有 GPU 的 HPC 而设计的,与标准(例如)HPE Proliant、IBM 等服务器相比,这真的带来了什么区别吗?
  • 大多数服务器是否支持消费级 GPU 卡所需的 PCI-express v4 x16?
  • 服务器机箱内的气流是否与消费级 GPU 卡兼容(通常底部有 3 个通风口)
  • 电源连接有问题吗?

答案1

我们的服务器中使用了很多 GPU - 但要遵循一条规则;

仅使用制造商明确支持的适合您的确切服务器型号的部件。

不要违反这条规则。

相关内容