我在研究中使用深度学习,并在我的计算机上添加了第二个 1080ti,因为仅使用一个无法让我及时完成实验。Tensorflow 将利用几乎 100% 的 GPU 和一些 CPU。
问题:如果我使用两个 GPU 运行 tensorflow,系统会在大约 30 秒后关闭,并且不会进行 POST。我必须移除第一个 GPU 才能再次开机(之后我可以再次添加第一个 GPU)。
电脑规格:
- 1x 安静!Dark Power Pro 11 750W ATX 2.4 (BN252)
- 1x华硕 Prime X370-Pro(90MB0TD0-M0EAY0)
- 1x AMD锐龙 5 1600(TDP:65W), 6x 3.20GHz, 盒装 (YD1600BBAEBOX)
- 2 个 MSI GeForce GTX1080 Ti(250 瓦)游戏 X 11G、11GB GDDR5X、DVI、2x HDMI、2x DP(V360-001R)
- 1 个三星 SSD 850 EVO 250GB,SATA(MZ-75E250B)
- 3x Seagate IronWolf NAS HDD 10TB,SATA 6Gb/s (ST10000VN0004)
- 1x G.Skill Aegis DIMM 套件 16GB,DDR4-3000,CL16-18-18-38 (F4-3000C16D-16GISB)
我使用 PCIEX16_1 和 PCIEX16_2 作为 GPU。
我到目前为止尝试过的:
- 使用每个 GPU 运行 tensorflow(GPU 利用率 100%)——> 两个 GPU 均运行正常
- 并行使用 GPU 时检查两个 GPU 的温度:--> OK 最高温度 <80°C
- 再次检查没有任何东西被超锁 --> 确定
有人可以指导我完成接下来的步骤来找出问题吗?
感谢大家的帮助。
答案1
PC 无警告关闭可能由多种原因造成,但常见的两个问题包括:
- 某物过热。通常这会触发#PROCHOT 或类似情况并立即完全断电。
- 消耗过多电力并触发 PSU 的安全装置。
您描述了在两个非常耗电的显卡上运行最大功率的情况,这让我怀疑是第二个问题。
看看你的显卡,它们每张都耗电高达 250 瓦。理论上 75 瓦可能由主板 PCI-e 插槽提供。如果显卡需要更多电量,它可以添加一个 6 针连接器并从中耗电高达 75 瓦,或者添加一个 8 针连接器并从中耗电高达 150 瓦。
您的卡使用两个 8 针连接器,很可能从这些连接器中汲取大部分电力。
(除非您想加热 MB,否则不建议从 MB 中汲取电力。如果选择 PCI-e 电源连接器,这是首选)。
您有两张卡和总共 4 个 8 针连接器。因此理论上您需要:* 4x 150W 输出,或 * 2x 300W 输出和一个从针脚到 2x 8 针脚的分离器 * 或类似的设置,其中两个 6 针脚以某种方式合并以馈送 1 针脚。
现在你的 PSU 很不错。它有不少于四个这样的插头。所以理论上你没问题。
但
它是不是保证能够在单个插头上提供 600W 的功率。因此,您无法在模块化 PSU 上使用 1 个 PCI-e 电源连接器并将其分成 4 个。
如果您没有正确的电缆,并且使用 PSU 上较少的插头供电,那么您可能会使其中一个插头过载。这可能会导致奇怪的火花,或者在 PSU 良好的情况下,导致过流保护和立即关机。
后者很可能就是您的 PC 上发生的情况。
由于您的 PSU 还具有一个按钮来在不同的轨道之间重新平衡,因此情况会变得更加复杂。我将不讨论这一部分,因为它会使尺寸增加一倍或三倍。