我应该关闭处于空闲状态的 GPU 混合服务器吗?

我应该关闭处于空闲状态的 GPU 混合服务器吗?

有一台服务器,配备 2 个 CPU(Intel Xeon E5-2670,Sandy Bridge)和 1 个 AMD GPU(Tahiti XT Radeon HD 7970)。还有 SSD(系统和可执行文件)和 HDD(重数据)连接到此服务器。

有时服务器会在高负载下工作几个小时。有时服务器会闲置几个小时(闲置时间可能超过 8 小时)。

我听到过两种相反的观点:

  1. 我不应该关闭我的服务器,因为服务器的设计就是不关机也能运行。成千上万台服务器不关机,可以连续运行一个月。
  2. 如果服务器没有负载,则应将其关闭。特别是因为 GPU。GPU 和 GPU 冷却器的资源有限,即使负载不大,也不应该一直打开 GPU。

哪种观点是正确的?我是否应该关闭此服务器以显著延长其使用寿命?

更新 1我首先想知道 GPU 是否能够不间断地工作。

更新 2关于 GPU 选择。这不仅仅是游戏 GPU。Radeon 7970 在许多情况下击败了 Nvidia Kepler。参见推介会

更新 3有一种观点认为,基于 GPU 的机器在 IDLE 上开启是一种非常糟糕的策略。我试图理解这是正确观点还是错误观点

答案1

空闲时关闭服务器的优点:

  • 更低(零)功耗,节省电力和冷却成本
  • 风扇磨损较少,风扇是 GPU(或服务器其余部分)最有可能导致损坏的部件。
  • 如果你每晚都有定时关机,那么安排 Windows 更新就会变得容易得多

空闲时关闭服务器的缺点:

  • 电机(风扇和旋转驱动器)无法启动的可能性比无法持续旋转的可能性更大
  • 如果半夜有工作要做,服务器将不可用
  • 组件压力 - 运行中的服务器与关闭的服务器之间存在很大温差(尤其是在空调房间内)。温度循环会导致金属每次膨胀和收缩,最终导致零件磨损。
  • 软件和操作系统问题更有可能在启动时发生。可能是上一批 Windows 更新搞砸了某些事情,或者您的引导加载程序已损坏,等等。当然,这些问题无论如何都会在您下次重新启动时出现,但至少您不必每天都担心这些问题,也不必在早上 8:50 匆忙修复它们,以免大家在早上 9 点上班。

风扇和硬盘是大多数系统中唯一带有电机的部件。硬盘电机受到良好的保护,不受环境影响,但风扇暴露在空气中的所有灰尘中。因此,与其他部件相比,它们磨损得很快。这就是为什么在大多数服务器中它们都是热插拔的 - 您可以在不关闭服务器的情况下更换它们。风扇的数量也比实际需要的多,因此单个风扇故障不会导致系统过热。

但是,这并不意味着关掉它们一定是件好事。大多数开始磨损的风扇一旦加速,工作正常,但启动困难。因此,当服务器重新启动时,它们根本无法启动,但如果一直开着,它们可能会继续运行。

关于显卡的具体想法:

  • 您使用的显卡适用于高端游戏系统。AMD 的火力该系列的视频卡专为服务器使用而设计。
  • 您马上就会注意到的一大区别是,只有最高端的型号才有风扇,其余的都是被动冷却。带风扇的型号实际上有 3 个,而且它们比游戏显卡上的风扇更大,可能更耐用。
  • 服务器显卡也是为全天候工作负载而设计的,因此它们的整体组件更加耐用。

所有显卡在空闲时都会降低风扇转速,降低功耗。如果你指的是“经过 1 万亿次计算后,显卡会报废”,那么“GPU 资源有限”并不是这个意思,但显卡风扇在报废前运行的时间肯定是有限的。在台式机方面,我有很多配备专用显卡的系统,这些系统几乎 24x7 全天候运行了 2-3 年,直到显卡风扇报废。在实际的服务器机房环境中,希望比台式机环境的热量和灰尘更少,我预计它可以运行相当长一段时间而无需维护。但以防万一,我会订购几个替换风扇,以便在显卡报废时有一个备用风扇。

结论

  • 保持服务器运行,即使处于空闲状态,除非服务器会连续闲置数天或数周。即便如此,我也会让它保持运行。
  • 为该 GPU 挑选一些备用风扇。特别是因为在一两年后当该卡被认为过时时,它们将很难找到。
  • 考虑用服务器级同等产品替换 GPU。这是否是一个好的选择取决于您的 GPU 处理需求和预算。您可能会认为,如果某块卡坏了,准备一整张备用卡会更便宜。

相关内容