SMART 警告了我,但我不相信它

SMART 警告了我,但我不相信它

我有一台服务器,上面有四块三星硬盘。所有硬盘都是同一型号,都是一起购买的。硬盘是 SAMSUNG HE753LJ,固件为 1AA01113。

我收到了 SMART 错误,但我感觉 smartctl 不了解他从硬盘获取的值。

以下是 SMART 测试的结果:

阿斯加德:〜#smartctl -H / dev / sdb
smartctl 版本 5.38 [i686-pc-linux-gnu] 版权所有 (C) 2002-8 Bruce Allen
主页是 http://smartmontools.sourceforge.net/

=== 开始读取智能数据部分 ===
SMART整体健康自我评估测试结果:失败!
预计驱动器将在 24 小时内发生故障。保存所有数据。
失败的属性:
ID# ATTRIBUTE_NAME 标志值 最差阈值类型 已更新 WHEN_FAILED RAW_VALUE
  3 Spin_Up_Time 0x0007 001 001 011 预故障始终 FAILING_NOW 60340

我不信任 SMART,因为:

  • 一年多以来,所有磁盘都可能在 24 小时内发生故障。但至今没有发生爆炸。
  • 维基百科说“旋转时间是主轴旋转的平均时间(从零转速到完全运转 [毫秒])。“那是否意味着驱动器需要大约一分钟才能唤醒?!

我想遵循 smartctl 的建议并更改这些磁盘,但我并不相信我读到的结果。

您对此有何看法?您会怎么做?

感谢您的帮助。

答案1

所有驱动器均为同一型号且一起购买。

这是一颗定时炸弹。

根据 SMART 的消息和上面的引述,您应该立即更换磁盘。

由于这些驱动器是一起购买的并且属于同一型号,因此它们可能具有相同的弱点,并且可能在相同条件下同时出现故障……

RAID 的主要概念是磁盘在不同时间发生故障,让您有机会一次更换一个磁盘,并避免数据丢失。

其他人报告说,RAID 配置中来自同一生产批次的整个相同磁盘阵列同时发生故障,因此存在相同的弱点。

我再强调一下:您需要开始交换您的驱动器!

答案2

我有一个备用驱动器,我仍然可以启动它,但每次启动时 SMART 检查都会失败,需要软重置,这种情况已经持续多年了,但它只是一个转储,而不是系统磁盘!因此,尽管 SMART 错误可能会持续很长时间,但在生产中应始终注意它们,因为风险远远超过成本、时间和数据完整性的好处。Google 研究了 100,00 个磁盘并发现

SMART 数据(自我监测、分析和报告技术)可用于确定驱动器是否将要发生故障。高达 30% 的显示 SMART 错误的驱动器最终会发生故障,并且“错误”驱动器使用的时间越长,崩溃的可能性就越大。也就是说,许多驱动器在其使用寿命的某个时刻都会出现 SMART 错误。

因此它并不总是一个可靠的指标。然而,SMART 错误在初次检测后立即显著增加了磁盘崩溃的可能性:

谷歌对超过 100,000 个驱动器进行的研究表明,SMART 状态的整体预测价值很小,但表明一些 SMART 实施跟踪的某些子类别信息确实与实际故障率相关 - 具体来说,在驱动器第一次扫描错误后的 60 天内,该驱动器发生故障的可能性平均比没有发生此类错误时高 39 倍。

因此从统计上来说您的磁盘可能没有问题,因为它已经远远超过了 60 天的限制。

尽管存在这些很强的相关性,但我们发现,仅基于 SMART 参数的故障预测模型的预测准确性可能会受到严重限制,因为我们的很大一部分故障驱动器根本没有显示任何 SMART 错误信号

但你愿意继续冒险吗?我会尽快更换磁盘,以避免凌晨起床。

答案3

SMART overall-health self-assessment test result: FAILED!

这部分不是由 smartctl 解释的(当然,假设我理解正确)——该驱动器已告诉 smartctl 它对当前状态不满意(无论出于何种原因),而 smartctl 只是向您发出该警告。即使它误解了启动时间读数,我也不认为它对“自我评估测试”读数做了任何解释。

我建议尽快将数据从该驱动器上移出,最好是在下次电源循环之前,以防旋转问题真实存在且可能会变得更糟。

答案4

确保您拥有智能实用程序的最新副本,而不仅仅是操作系统中包含的副本。智能实用程序经常更新,并且某些来自特定驱动器的错误报告需要得到解决。

Google 的研究非常有启发性。30% 的出现 SMART 错误的磁盘最终会失败。这不是我愿意面对的几率。也就是说,两个磁盘发生故障的几率为 9%,此时您的 RAID 将被破坏。

几年前,我的一些 Seagate 硬盘也出现过类似的问题。我们当时购买了大约 8 个磁盘,它们都是同一批次的。大约 3 年后,一个硬盘坏了。18 小时后,另一个硬盘坏了,24 小时后,第三个硬盘坏了。

相关内容