在寻找最适合我预算的 GPU 后,我选择了较旧的 K80,因为它的 VRAM/$ 比率很有吸引力。然而,K80 有点奇怪,因为它是一种二合一卡,并且是被动冷却的 - 它实际上只适用于 GPU 服务器。所以我决定选择一个较旧的 GPU 服务器,SuperMicro 2027GR-TRF;到目前为止,我已经安装了一个 K80,但它最终可以支持两个。
即便如此,我仍然遇到了一些与散热有关的问题,这让我很沮丧,因为我正试图采用此卡的官方支持路线。具体来说,如果我将 IPMI 中的风扇设置为“最佳”,我会看到 K80 的一半温度不断上升(根据 nvidia-smi),直到达到 ~93C 并且散热关闭。不好!幸运的是,该设备有强劲的风扇,因此如果我简单地将 IPMI 中的风扇设置为“全开”,它会稳定在 51C 左右,但声音足够大,我戴上了听力保护装置。这并不理想。不幸的是,BIOS 没有风扇选项,而 IPMI 只显示“全开”或“最佳”(至少是可选的),所以我没有更多明显的东西可以尝试。
现在,我是服务器领域的新手,但我很惊讶这似乎不是自动的,我正在尝试了解原因。我可以看到 IPMI 可以看到 GPU1 温度(但没有看到 GPU2 温度,这可能是 K80 可能需要的?),所以我希望它能反馈到风扇控制的闭环中。
我对此感到困惑,正在寻求有关此问题的一些理解。
- 闭环风扇控制通常是 BIOS、IPMI、OS 或用户安装的程序的工作吗?考虑到 GPU 通常在 CPU 也处于停滞状态时运行最困难,我认为除了专用子系统之外的其他系统应该负责这样的关键功能,这似乎很奇怪。
- 如果这是 IPMI 的功能,是否有标准机制来调整反馈控制?我已经看到很多通过设置阈值来控制风扇速度的方法,但实际上我认为我需要设置的是根据 GPU 温度设置风扇转速 - 也许比现在更激进一些。
无论如何,如果您能帮助我解决这个问题以便我能保持我的听力我将不胜感激...谢谢!
答案1
我可以确认搭载 Nvidia A100 GPU 的 Supermicro 2029GP-TR 上存在此问题。
最初,将风扇模式设置为“最佳”,IPMI Web GUI 上的“传感器读数”页面上的 IPMI 传感器仅显示安装了 2 个 GPU 的“GPU1 温度”传感器。在使用 gpu-burn 平台测试 GPU 时,风扇仅根据 GPU 温度改变 GPU1 的速度,而 GPU2 的速度保持在 3000 RPM。
通过更新 IPMI 固件并取消选中“保留配置”和“保留 SDR”,问题得到了解决。
答案2
我让它工作了!
过去,我曾尝试过将其设置为最佳模式,当时我以为听到了风扇转速的轻微变化,但还不够。所以我开始寻找答案。在我的任务中,我更新了 IPMI,但没有更新 BIOS。今天,我通过 IPMI 原始命令将其设置为最佳模式,然后再次测试……现在它可以正常工作了!它稳定在 60C +/- 1C。
我以前就注意到,如果没有加载 NVidia 驱动程序,我认为我不会看到 GPU1 Temp 参与。
因此,我将结合使用更新 IPMI 和 NVidia 驱动程序作为其工作的可能原因。我很高兴看到系统处理这个问题,而不需要借助手动脚本等来控制它。