SuperMicro GPU 基于温度的风扇控制

SuperMicro GPU 基于温度的风扇控制

在寻找最适合我预算的 GPU 后,我选择了较旧的 K80,因为它的 VRAM/$ 比率很有吸引力。然而,K80 有点奇怪,因为它是一种二合一卡,并且是被动冷却的 - 它实际上只适用于 GPU 服务器。所以我决定选择一个较旧的 GPU 服务器,SuperMicro 2027GR-TRF;到目前为止,我已经安装了一个 K80,但它最终可以支持两个。

即便如此,我仍然遇到了一些与散热有关的问题,这让我很沮丧,因为我正试图采用此卡的官方支持路线。具体来说,如果我将 IPMI 中的风扇设置为“最佳”,我会看到 K80 的一半温度不断上升(根据 nvidia-smi),直到达到 ~93C 并且散热关闭。不好!幸运的是,该设备有强劲的风扇,因此如果我简单地将 IPMI 中的风扇设置为“全开”,它会稳定在 51C 左右,但声音足够大,我戴上了听力保护装置。这并不理想。不幸的是,BIOS 没有风扇选项,而 IPMI 只显示“全开”或“最佳”(至少是可选的),所以我没有更多明显的东西可以尝试。

现在,我是服务器领域的新手,但我很惊讶这似乎不是自动的,我正在尝试了解原因。我可以看到 IPMI 可以看到 GPU1 温度(但没有看到 GPU2 温度,这可能是 K80 可能需要的?),所以我希望它能反馈到风扇控制的闭环中。

我对此感到困惑,正在寻求有关此问题的一些理解。

  1. 闭环风扇控制通常是 BIOS、IPMI、OS 或用户安装的程序的工作吗?考虑到 GPU 通常在 CPU 也处于停滞状态时运行最困难,我认为除了专用子系统之外的其他系统应该负责这样的关键功能,这似乎很奇怪。
  2. 如果这是 IPMI 的功能,是否有标准机制来调整反馈控制?我已经看到很多通过设置阈值来控制风扇速度的方法,但实际上我认为我需要设置的是根据 GPU 温度设置风扇转速 - 也许比现在更激进一些。

无论如何,如果您能帮助我解决这个问题以便我能保持我的听力我将不胜感激...谢谢!

答案1

我可以确认搭载 Nvidia A100 GPU 的 Supermicro 2029GP-TR 上存在此问题。

最初,将风扇模式设置为“最佳”,IPMI Web GUI 上的“传感器读数”页面上的 IPMI 传感器仅显示安装了 2 个 GPU 的“GPU1 温度”传感器。在使用 gpu-burn 平台测试 GPU 时,风扇仅根据 GPU 温度改变 GPU1 的速度,而 GPU2 的速度保持在 3000 RPM。

通过更新 IPMI 固件并取消选中“保留配置”和“保留 SDR”,问题得到了解决。

答案2

我让它工作了!

过去,我曾尝试过将其设置为最佳模式,当时我以为听到了风扇转速的轻微变化,但还不够。所以我开始寻找答案。在我的任务中,我更新了 IPMI,但没有更新 BIOS。今天,我通过 IPMI 原始命令将其设置为最佳模式,然后再次测试……现在它可以正常工作了!它稳定在 60C +/- 1C。

我以前就注意到,如果没有加载 NVidia 驱动程序,我认为我不会看到 GPU1 Temp 参与。

因此,我将结合使用更新 IPMI 和 NVidia 驱动程序作为其工作的可能原因。我很高兴看到系统处理这个问题,而不需要借助手动脚本等来控制它。

相关内容