服务器显示 SMART 故障预测

服务器显示 SMART 故障预测

我有一台较旧的 xSeries 306,它开始给我一个硬盘 2 预测到 SMART 故障:SATA 端口 0消息,一个备份警告,并留言给按 F1 继续据我所知,SMART 实际上是硬盘本身的一部分,但这种情况发生在其他系统上运行良好的硬盘上。我装了一个新硬盘,并试图重新安装服务器 2003(仍然收到 SMART 警告)。安装程序看到了硬盘,我格式化了硬盘。它只是挂在 0%。我认为这实际上不是计算机检测到 SMART 问题,而是服务器本身的问题。除了主板坏了之外,还有其他原因可能导致这种情况吗?

顺便说一句,该系统只有 1 个硬盘。我从未注意到它被称为“硬盘 2:SATA 端口 0”。这是正常的吗?

谢谢

答案1

是的,SMART 指标由驱动器固件收集,因此与它们所处的系统无关。

但是,有些系统抱怨,有些系统不抱怨,这与上述任何原因都无关。

监控操作系统或应用程序会决定这些指标意味着什么

编辑:嗯,不完全是——SMART 还提供了操作系统或应用程序可以检查的单值 PASS/FAIL 状态,并且该状态由驱动器固件决定。

然而,任何有价值的监控解决方案不仅会使用它,还会从 SMART 表中解释实际值。

答案2

这些 SMART 警报的出现是有原因的。

是的,硬盘本身有 SMART 电路/逻辑。它可以测量许多不同的性能指标,例如启动时间、坏扇区等。网上有无数免费工具可以轻松提取这些数据并亲自查看。

Windows 安装程序不关心 SMART 数据。

答案3

SMART 变量是驱动器固件的一部分。当某些参数超出定义的限制时,机器应该开始发出警报。这在操作系统级别上没有任何作用。它完全在驱动器固件中。

这并不意味着光盘有问题 - 而是光盘开始出现问题。光盘可能在未来几年内运行良好,也可能在几天内出现故障。

因此,对于数据完整性至关重要的专业机器/服务器,如果您确认这是 SMART 问题(可能是滥用/控制器问题 - 看到一个磁盘干扰 SAS 总线上的其他端口),那么在 SMART 开始哭泣时更换磁盘是一种惯例。

我从未注意到它被称为“硬盘 2:SATA 端口 0”。这是正常的吗?

有可能。根据 BIOS 检查还有什么。例如,我的主服务器有 2 个键盘 - 一个是真的,一个来自通过“假”USB 端口的 Lights Out 管理。也许你有一些“幽灵”hd 0?DVD 驱动器?

答案4

其他人正确地指出 SMART 是一种驱动器内置功能。其他机箱可能不会抱怨此 HDD,因为它们在启动时不会检查其 SMART 状态。

正如我在之前的回答中提到谷歌几年前发表了一篇著名的论文(除其他外) SMART 监控,得出的一个结论是,SMART 错误的存在与早期驱动器故障密切相关。

当然,这只是一个统计论点,但是如果我是你,我会把那个硬盘放进一个 Linux 机箱里,用来smartctl确认驱动器确实报告了预测的故障,然后立即淘汰该驱动器。

相关内容