我刚刚收到新的 Dell R730xd 2U 服务器,其面板上有 12 * 3.5 英寸驱动器托架 + 4 * 3.5 英寸中部托盘,位于 RAM 模块和 CPU 上方。我插入了 16 * HGST Helium 8Tb 7200 RPM SAS 12Gb/s 驱动器,并启动了 2 * 8 * 8Tb RAID6 卷后台初始化。
我使用 smartctl 查询驱动器温度。虽然前部驱动器的温度预计在 33C 到 37C 之间,但中部驱动器 #14..17 的温度为 45C、46C、51C、54C - 我最担心的是后者过热。初始化只持续了几个小时。
iDRAC 报告进气温度为 22C,出气温度为 44C。风扇转速约为 4.3k RPM。如果盖子关闭,风扇转速约为 15k。
热成像显示#17 温度最高,壳体温度为 47C。
我还不确定特定驱动器是否存在任何问题,或者是否与驱动器位置有关 - 将通过删除 VD 和交换两个驱动器位置来验证 - 将根据观察结果更新此帖子。
制造商规格表明正常运行环境温度最高可达 60C(关联)
在我看来,温度升高会影响驱动器的寿命。
但是,我的旧款 R720xd 上的两个柔性托架后置驱动器的转速为 15kRPM,温度始终在 55C 左右,使用 3 年多后依然正常。
此外,我还请求 HGST 支持他们的立场。
serverfault 上的另一个主题指向 Google 的研究,指出 T 是几年后的一个因素。(关联)
UPD1 (20151102):制造商迅速回复:“此驱动器可在 5 - 60 C 的温度下运行。驱动器的正常运行温度应低于 50C。如果驱动器在 55C 的稳定温度下运行,则其运行温度会比正常情况下高一点,但仍在安全范围内。”
UPD2:我交换了 14 号和 17 号的位置 - 过热与位置有关,右侧(从前到后看)比左侧热,之前 14 号坐在 17 号座位时显示最高温度为 56C,之前 17 号坐在 14 号座位时显示最低温度为 40-45C。将 iDRAC->Hardware->Fans->Setup->Fan Speed Offset 调整为“低风扇速度偏移 (+23%)”(6.8kRPM 怠速 vs 4.4kRPM 默认,执行 RAID 初始化)将 14 号和 17 号的最高温度从 49C 和 54C 降至 40C 和 47C。将风扇设置为 15kRPM(通过设置对第三方 PCI 卡的默认反应 - 我有一张)将温度降至 34C 和 39C,但需要额外 +120W 的功耗(340W vs 230W)。
当然,我使用的不是戴尔认可的磁盘。戴尔目前没有为这台服务器提供 8Tb 驱动器,6Tb SAS 每块售价 830 美元。我以 498 美元的价格购买了 8Tb Helium SAS,将 RAID 前 TB 成本从 138 美元降至 62 美元。后来我意识到戴尔固件(并由 Lifecycle Controller 支持)可能与冷却系统有更好的通信,并且还可以通过 LC 获取固件更新。
对我来说另一个惊喜是 - 交换#14 和#17 并没有导致 RAID 重建 - 控制器只是在新位置拾取磁盘而没有在日志中说一句话。
UPD 20160426:现在已经部署了多个 R730xd,其中 12+4 配备 HGST 8T 12G SAS 或 Seagate 8Tb 12G SAS,我观察到所有 #14 都比 #17 低约 10C,而将其降至 40-47C 范围的部分补救措施是将 iDRAC 中的风扇速度设置提高到 +30%。
答案1
55-60 C 以下的任何温度都应该没问题。无论如何,对于机械驱动器来说,真正危险的是反复的热游览,此时驱动器会变热并迅速冷却。重复的旋转/旋转循环同样危险。
正如 EEAA 所述,如果它是 DELL 支持的设置,您就不必担心。
答案2
我添加这个作为指向一些更相关研究的指针,这些研究比谷歌的研究更新,并且似乎在方法论上具有一定的严谨性。
存储舱制造商 Backblaze 已经完成了驱动模型的故障率与温度分析,在大多数情况下没有发现相关性。对于三种型号(两台 Seagate Barracuda 和一台 Hitachi Deskstar),相关性具有统计意义(他们没有说明显著性的阈值是多少,但我从数字上猜是医学标准的 95%),其中一种情况下相关性相当强。
他们的结论(我将其完整转述如下)是:
总体而言,工作温度和故障率之间没有相关性。唯一的例外是 Seagate Barracuda 1.5TB 硬盘,运行温度越高,故障率越高。
只要您在允许的工作温度范围内运行驱动器,保持其温度较低并不重要。
因此,就你的情况而言,我认为你没有遇到任何实际问题。(免责声明:我与 Backblaze 没有任何关系。)
答案3
服务器制造商很多投入大量资金来设计其系统,使其可靠,并使其在可能包含的任何第三方组件的规格范围内运行。如果这些驱动器的预期寿命较短,戴尔将不对这些驱动器提供保修。
如果戴尔说这是受支持的配置,那么不要担心。现代装备是很多比 10-15 年前的设备更耐高温。您有 RAID,并且受到保护以免发生双驱动器故障。恕我直言,您应该花时间做点其他事情,而不是猜测这台服务器的热管理。