* 更新 * 事实证明,SMART 报告数字中可读部分对于 UDMA CRC 错误来说毫无用处,您只需跟踪 RAW 值即可。在刷新了十几个硬盘驱动器后,我从未看到可读部分只改变 RAW 值。这也得到了我读到的其他一些文章的支持,因为制造商未能采用统一的标准。
* 原始帖子 * 我有一张由多条电缆、背板和多路复用器组成的 RAID 卡。最初驱动器全部位于 RAID 中,上游发生故障,生成 SMART CRC 日志。我需要一种比 SMART 报告更好的方法来跟踪这些错误
正在做的是诊断根本原因(例如电缆、BP 等),我对此没有问题。但是,我知道监控此故障的唯一方法是通过 SMART CRC 报告。但是,所有驱动器都已达到报告限制,在我的情况下是 200 个报告。
有没有软件层面的方法来检查这一点。例如,我对各个驱动器进行压力测试,我可以看到哪个驱动器有更多这些相关报告(即使它没有显示为 SMART 错误),然后通过排除法,我可以换出坏的部件。
Linux 或 Windows 都可以。我只是不知道 SMART CRC 报告是否可以在系统的其他地方计算,或者是否有其他替代方案,因为它是 CRC,所以我假设 RAID 控制器也参与其中。RAID 软件非常基础,不会在日志或 SMART 中提供任何详细信息。我已经能够用另一组驱动器复制该问题,但您可以想象这很累人。
** 注意: - 我来这里不是为了寻求硬件帮助,因此我不需要询问我的设置是什么样的等等。 - 如果您不知道什么是 CRC 错误,则它们是来自驱动器的上游故障,而不是驱动器本身。
答案1
这似乎是特定于供应商的,有几种方法可能有效。听起来很有希望的是 HTR(硬盘修复工具),又名 HDD.exe/HDD48.exe。
https://forum.hddguru.com/viewtopic.php?f=1&t=36754
http://www.hddoracle.com/viewforum.php?f=30
http://www.hddoracle.com/viewtopic.php?f=22&t=1765
对于 Seagate 硬盘来说,串行方法听起来也很可靠:
https://askubuntu.com/a/687455
重置计数器后,smartd
可smartmontools
用于在测试期间监视磁盘。
https://linux.die.net/man/8/smartd
它可以配置为实时轮询智能数据并在发生错误时通知。