长时间保持 GPU 的利用率为 100% 安全吗?

长时间保持 GPU 的利用率为 100% 安全吗?

我目前正在使用 CUDA 在我的 GPU(NVIDIA GeForce GTX 1050 Ti)上进行数字运算。这些操作通常需要几个月才能完成,在此期间,我的电脑 24 小时不间断运行。

这样做安全吗?我是否会冒着显卡过热的风险,从而导致(最坏的情况)房屋起火?


请注意,PC 通风良好,且空气流通不受阻碍。

答案1

简短的回答:这在精心设计的硬件上应该是安全的。

长答案:GPU(及其软件环境:驱动程序、操作系统、守护程序)旨在防止过热 - GPU 应首先将风扇调至更高的 RPM,如果无法保持安全温度,则 GPU 会限制工作负载(通常通过降低时钟频率)。这将确保热量分布不会损坏 GPU,因此也不会损坏 PC(或房间)。

警告:存在廉价的仿冒显卡,其固件专门设计为牺牲安全性来换取性能。虽然我不认为 1050 存在这样的情况,但我不能 100% 确定。您还应该选择从其网站下载的 Nvidia 驱动程序,而不是“优化”的供应商驱动程序,后者可能会做同样的事情。

答案2

房屋发生火灾的可能性极小,但是卡的使用寿命可能会缩短。

GPU 芯片长期过热可能不会引发火灾。芯片可能会老化并开始出现故障或完全损坏,但硅芯片不太易燃。电解电容器发生故障并爆炸通常会带来不好的事情,但这些不会因为显卡正在执行大量运算而过热,而且你还希望有一个金属 PC 机壳来容纳此类故障产生的热碎片。

然而,消费级部件通常不是为长期全天候负载而设计的。因此,显卡很可能会比没有承受这种负载时更早报废。如果没有特定型号的更多统计数据,很难说会早多少。HPC 社区中的一些人主张使用高端游戏 GPU 而不是特殊的 HPC 计算部件,这似乎具有一定的经济意义。虽然商品部件在一年左右的时间内就会报废,但继续更换它们更便宜,因为它们比替代品便宜很多倍

答案3

是的,该卡如果承受恒定负载,则可能会更快磨损。在小几何形状下,电迁移是设备故障的重要原因,设备通常会在设计时考虑特定的目标使用寿命。对于典型操作(例如连续运行 5 年),这可能很宽容,但可能不会假设所有时间的最大工作点都为 100%。一旦开始超频,就可以预期该目标会大幅降低。(同样,由于这种故障机制,仅以 80% 的负载运行可能会使使用寿命翻倍)。

当然,还存在与部件热运行或热循环有关的其他故障,这只是为了指出现代电子产品(甚至是设计不良的 20 世纪 80 年代电子产品)容易“磨损”。

答案4

正如您所说,通风良好,所以不必担心这个风险因素。

说到 GPU,它将要比通常每天 8-16 小时的办公室工作更耐用,因此在 100% 24/7/365 全天候使用时不太可能它将能够工作 5-10 年甚至更长时间。但您还必须考虑到 GPU 本身(而不是整个 PC)的冷却系统设计不良、整体设计不良、软件和固件错误、生产质量差或生产缺陷(严重程度和缺陷率不同 - 从单个缺陷到大量缺陷)。这些因素会使发热情况恶化,导致系统故障、寿命缩短、短路甚至可能引起火灾或电击。一些因素取决于型号和版本,一些因素正在通过软件/固件更新逐渐修复,一些因素因单个项目而异。最好选择具有经过验证的可靠性声誉和适当版本(通常是最新版本)的型号。此外,它可能会产生不良影响并严重干扰其他组件,例如,通过产生额外的电气/电子信号噪声。另外,不要忘记这样一个事实,即导热膏可能会逐渐失去其品质并使冷却效果变差。

我必须提到,显卡并不是唯一需要考虑的组件,因为 PC 是一个复杂的系统,其成功工作取决于多个组件的状态。每一个小部件,即使是不必要的和未使用的,损坏的部件,甚至是软盘驱动器或一些装饰灯可能会损坏 PC 或导致与 GPU 相关的问题。例如,开/关按钮损坏可能会导致关机或重启。现在更深入地了解关键组件:

  • CPU:在您的使用情况下,它可能不会比日常使用更频繁地使用,而且您可能绝对不需要超频。如今,CPU 具有所有防御机制,如节流和紧急关机,并且被认为非常耐用。只是不要忘记冷却器和导热膏,它是不太可能成为系统中最薄弱的环节。
  • 主板:与CPU几乎相同,但PCI-e的使用率很高,并且磁盘,网络和外围设备的使用率也可能很高,但最好选择经过验证的型号。
  • RAM:是的极不可能很容易损坏,所以这个风险不值得担心。只要用一个好的就可以了。
  • 磁盘:在依赖磁盘使用的任务中(例如数据挖掘、数据处理、使用磁盘上的数据学习神经网络),HDD 可能成为可靠​​性的薄弱环节 - 在服务器和数据中心,1-3 年更换磁盘很常见,很少能“使用” 5 年或更长时间。您可以使用 RAID 1 和备份系统来提高 24/7/365 使用的可靠性(RAID 0 牺牲了可靠性来提高性能,其他 RAID 可能需要很长时间才能恢复数据。此外,RAID != 备份,因此如果需要,请不要忽视备份)。使用 SSD 时,大量写入磁盘的操作可能会耗尽写入的 TB 限制并使磁盘变得无用 - TBW 优于其他功能。带有 SSD 的 RAID 1 可以保护系统免受一个磁盘突然故障的影响,但对 TBW 率没有帮助。HDD 或 SSD - 取决于您的需求、预算和选择。最好选择具有可靠声誉和适当修订版(通常是最新修订版)的型号。
  • 电源块:显卡大量使用电源块,因此磨损更严重 - 因此最好选择具有可靠性声誉的型号,并进行适当的修订(通常是最新的),并且功率至少是整个系统功耗的 1.5 倍,或至少是主要功耗(如 GPU 和 CPU)的 2 倍至 2.5 倍。请务必使用良好的 220V 交流电缆,因为不良的220V交流电缆容易引起短路,触电或燃烧(会产生烟雾并自毁或引发真正火灾)!
  • 通风机:虽然看起来微不足道,但它们在此类用例中却至关重要,而且通风机故障对 24/7/365 系统来说是个大问题。通常,尽可能多地安装通风机,但也要考虑其大小 - 较大的通风机更安静、更有效,而较小的通风机在某些情况下可以安装更多,因此单个通风机故障对系统的影响会更小 - 选择权在您手中。
  • 奇特的冷却系统:水冷被认为是高热超频系统中紧凑且有效的冷却系统,但漏水可能会对 PC 组件造成严重损坏。冷冻氮气系统非常有效,但可能不是必需的,但体积更大且价格更昂贵。

专业企业 24/7/365 系统和组件为此进行了更好的设计,并且对所有组件(甚至 CPU 和 BIOS)都有储备,并具有组件或模块的热更换功能,但即使它们没有 100% 的正常运行时间(接近,但不相等),专业的 Nvidia 卡对于 CUDA(尤其是神经网络)来说速度更快,但我不认为这是您的用例。

组装系统的重要性不亚于组件本身。不要忘记任何一个动作,不要犯错,不要把电脑弄得像个傻瓜,一切都必须正常。

确保没有软件会强制关机、重启电脑或终止进程。如果你是 Win10 用户,你可能会认为没有办法完全禁用更新,但网络上有一些解决方法和软件可以解决这个问题(警告:它可能违反 EULA)。

外围设备也可能导致问题,例如 PC 的组件。例如,损坏或磨损的鼠标可能会在未按下按钮时记录按下按钮。

关于关键外部环境:

  • 电力:我希望你家里的电力非常可靠和稳定,因为断电会让你失去工作成果。对于短期电力问题,UPS 可以帮助你,但对于长期问题,它只能给你时间让系统休眠或正确保存你的进度。
  • 网络:如果您的任务依赖于互联网或网络连接,请检查电线/调制解调器/路由器是否正常。

加起来:没有任何可靠的保证说一切都会好起来(实际上,只有死亡是可以保证的),无论如何,你必须接受风险(它们绝不将等于零),但是如果选择好的组件,正确的组装,并且没有运气购买到有缺陷的组件,那么你就可以以较低的风险使用 PC,然后问题作者最初假设,除非你要年复一年地这样做,并期望 5 年、10 年或更长时间的可靠性。

相关内容