我正在运行一台装有 4 个 Nvidia Titan X 的计算机,用于训练深度神经网络。我的功耗有问题。Titan X 的功耗不应该超过 250W,但正如您在图上看到的那样,它可能超过 350W。当我使用 nvidia-smi 监控功耗时,参数强制功率限制设置为 250W,这是应该的。
起初我以为这不是问题,只是我无法在 1200W PSU Corsair Axi 上同时运行所有 4 个 GPU。然而,当我在单个 GPU 上尝试计算成本更高的其他神经网络时,电脑崩溃了。事实上,我已经烧毁了 PSU 并将其退回。我现在买了一个更大的 PSU(1600W),但我不想再遇到同样的问题。
我不记得电源是怎么插的,但也许我使用的 GPU 插的是类似的东西这因为 Titan x 需要 2 个 pci-e 连接器,而我的 PSU 只有 8 个(4*2 用于 GPU,1 用于 CPU,所以不够)。如果是,则 GPU 插在单个 pci-e 输出上,而不是两个。
有没有可能 GPU 消耗了超过这个条目的可能值(40A,480W)并烧毁了整个 PSU?我可以吗?真的强制执行 250W 的功率限制?