背景
我家里的个人台式机系统内有 5 个 SATA 驱动器。最近我的系统开始以奇怪的方式出现故障,例如随机内核崩溃,我最终将其归咎于 RAID 阵列的随机降级。有时我可以启动,有时则不能,等等。在追踪软件问题一段时间后,我终于去拔出驱动器并发现了它们出现故障的真正原因:它们比 7 月 4 日的烧烤还要热!前机箱风扇卡住了,PS 风扇的电源连接器松动,卡在格栅中,因此机箱内部一直在加热。
为了缓解压力,我找到了一台家用风扇,让它降温。它运行良好,一切都很凉爽。大约在这个时候,我学会了如何从 SMART 获取驱动器温度读数
for i in a b c d e; do
sudo smartctl --all /dev/sd$i | grep Temperature_Celsius
done
现在我知道,打开机箱,用家用风扇不断清理蜘蛛网,驱动器在 31-32° 下运行。在没有通风的情况下进行快速测试以复制故障状态,结果显示驱动器很快升至 40 多度。我不知道实际故障时有多严重,也不知道这种情况持续了多久。
考虑到这一点,我更换了故障的风扇,又增加了几个风扇,将吹向驱动器的前置风扇从 80 毫米升级到 120 毫米,然后重新关闭。当它再次直立时,温度范围现在通常位于设备底部 32° 和顶部 37°。
问题
SATA 驱动器的一般安全工作温度范围是多少?37° 是否值得关注,还是驱动器损坏在某个特定点之后才成为问题?
尽管现在驱动器的测试似乎没有问题,但是过去暴露在高温下导致它们现在容易发生故障的可能性有多大?
答案1
37 度根本不成问题。当然,硬盘的规格各不相同,有些硬盘的运行温度可能比其他硬盘高。您应该检查所用硬盘的已发布规格。例如,WD Caviar 黑色 1TB工作温度为 -0° C 至 60° C。当然,您不会希望驱动器在 60° 的温度下运行,因为这可能会缩短其使用寿命。
谷歌发布了非常有趣的研究(PDF)关于硬盘健康和使用寿命的研究,基于从他们的系统(数千个硬盘)收集的数据。该研究表明:
总体而言,我们的实验只能证实之前报告的温度效应,仅适用于温度范围的高端,尤其是较旧的驱动器。在较低和中等温度范围内,较高的温度与较高的故障率无关。这是一个相当令人惊讶的结果,这可能表明数据中心或服务器设计人员在为包含磁盘驱动器的设备设置工作温度时拥有比以前想象的更多的自由。
他们的图表显示,直到驱动器温度超过 45 度时故障率才会上升。
答案2
这只是我有限的个人经验,但我在 2-3 年内曾在 40C 以上温度下运行过几个驱动器,没有出现问题,因为我使用的是静音外壳(用小风扇冷却以避免达到 50C)。在这些温度下,我认为寿命会缩短并且会很快损坏,而不是随机数据损坏,但我可能错了。无论如何,任何低于 40C-42C 的温度都没有问题。
但不要低估可能导致数据损坏的其他因素:
装有 IDE/RAID 控制器芯片组的南桥通常仅由小型散热器冷却。它们在正常条件下往往会发热,因此由于机箱气流不足和大量 HDD 导致环境温度升高可能会导致数据损坏。
RAM 或 CPU 过热是 CRC 内存错误的常见原因,会导致数据损坏。面对数据损坏时,监控 CPU 温度和执行内存测试至关重要。
如果您当前的 SMART 指示器正常且未显示无法纠正的扇区数,我会认为该驱动器可以安全使用。
答案3
最初的帖子说用户不知道他的驱动器有多热 - 有些磁盘记录了这个参数,可以通过 SMART 信息访问。硬盘哨兵是一款软件,它将此报告为整个生命周期内的最高温度。
我看到了 Maxstor、WD 和 Seagate 硬盘的结果
我用于备份的几个外部 USB 驱动器分别显示最高温度为 63 和 64 C!我现在为外部驱动器安装了冷却器
答案4
我已阅读上述报告并检查了三星、WD 和日立硬盘的工作温度范围。根据研究,我得出结论,在 30 度到 45 度的温度下运行的硬盘发生故障的可能性最小;高达 55 度的 SMART 高温不会引起任何问题;而超过 60 度的 Peek 温度则表明硬盘的预期寿命会缩短。
我自己的测试表明,在访问繁忙期间,温度可能会上升 10 度。
似乎有一些未知因素在起作用,导致外置硬盘的故障率异常。虽然热量似乎是问题的一部分,但并不是全部答案。我建议所有外置硬盘用户在硬盘使用或环境发生变化时密切监测温度。这似乎是导致这些硬盘意外过热的一些“未知”(不常见)问题。
我目前拒绝接受计算机病毒、用户无知、不良 USB 协议以及驱动器放置在不正确位置的解释。