我负责管理大量 Windows 服务器。最近,许多服务器报告硬盘错误,事件代码为 11 和 55。CHKDSK 表示硬盘大多数时候都正常。我可以使用哪些其他诊断工具来更准确地检测硬盘故障?这些 Windows 事件可能是误报吗?我已经评估了 SMART,它似乎存在严重的敏感性和特异性问题。
答案1
你探测通过监控 RAID 控制器(或软件 RAID 状态)来检测硬盘故障驱动器故障。
当驱动器发生故障时,您会尽快更换它。
其他任何事情都可以替代预测故障(这很有用,但对于 RAID 来说并不那么重要)。
目前,没有比 SMART 更好的工具来预测故障(您引用的那篇文章 - 6 年后仍然是权威著作 - 显示了某些 SMART 错误与驱动器死亡率之间存在明确的相关性)。
基于 SMART 的监控存在较高的“假阴性”率,但是对故障的积极预测可被视为极其可靠(并且假阴性再次由 RAID 解释)。
答案2
根据服务器制造商的不同,可能会有一个或多个工具用于从中央控制台监控硬件。戴尔使用开放管理它将针对与硬件相关的问题生成警报。HP 和 IBM 有类似的工具。