我正在尝试修复我公司的多 GPU 计算机的问题,但我已束手无策。
每当我启动连接了 5 个以上 GPU 的计算机(我们尝试使用 7 个)时,它会在开机自检之前关闭。
如果我插入 4 个 GPU,它就可以正常工作。我之前曾用 7 张卡运行过它,但突然间它开始出现这种情况。
- 母板:WRX80 Sage II(主板侧面的两个 6 针插头已插入)
- 中央处理器:Threadripper 5955X
- GPU:Zotac 4090 (7x)(均配有 Gen 3 转接电缆)
- 内存: G Skill RipJaw 8x 32GB
- 高清:三星 EVO Plus 500GB
- 电源:Corsair HX1500i Platinum 80 Plus(总共 4 个 PSU,每个 PSU 为 2 个 GPU,另一个 PSU 为单张卡和主板供电)
- UPS:4x cyberpower 950W。
以下是我迄今为止尝试过但没有成功的方法:
- 我已经更换了主板、RAM、CPU 和所有 PSU。
- 我拔下了每个 GPU(保留另外 6 个)并打开电源来测试所有 PCIe 插槽、GPU 和转接卡电缆。
- 我尝试以各种配置打开和关闭主板上的 4 个开关。不知道它们有什么作用,但似乎值得一试。
- 我将 BIOS 更新至最新版本。
- 我尝试将电源直接插入墙上的电源以绕过电池备份。
- 我尝试使用 UPS 上的电池运行计算机(从墙上拔下 UPS 插头)以排除电气系统问题。
有一次我确实设法让 5 个 GPU 运行,但第 5 个卡无法发挥全部性能。运行基准测试时,4 个卡的得分约为 5600,5 个卡的得分为 6300,这意味着第 5 个卡仅发挥了其应有性能的 50% 左右。现在又回到仅使用 4 个或更少的卡运行的状态。
我愿意接受任何想法。
答案1
遗憾的是,存在重叠的问题区域,这会使故障排除变得复杂:
- 主板固件与如此多 GPU(>4)的兼容性往往不简单。如果系统在更新前可以正常工作,那么降级 UEFI 版本可能会恢复某些功能(但会失去更新带来的任何改进)。请注意,主板手册仅宣传支持最多 4 路 SLI*。某些 GPU 密集型系统仅在其他 GPU 处于替代模式时才支持 >4 GPU,这可能需要使用工具进行更改,并且几乎肯定与 GeForce 产品不兼容。https://developer.nvidia.com/displaymodeselector
- PCIe 转接电缆以脆弱性和兼容性而著称。添加的越多,出现问题的可能性就越大。即使没有太多处理,它们似乎也会在日常使用中出现问题。更改 BIOS 设置以降低 PCIe 信号速率(gen3 而不是 gen4)可能会带来轻微的改善。
- 尽管所述电源和分配似乎绰绰有余,尤其是仅用于完成 POST,但也可能存在故障的 PSU。建议减少 GPU 数量以单独测试每个 PSU,最好不使用 PCIe 转接卡或使用已知良好的转接卡。
*虽然 SLI 与您的配置无关,但它可能指向主板固件仅在显示设备模式下使用 4 个 GPU 进行测试。