监控硬盘健康状况的最佳策略是什么?

监控硬盘健康状况的最佳策略是什么?

您使用什么策略来监控服务器硬盘的运行状况?您是否安排了自动 chkdsk 并报告?如何收到故障警报?

答案1

磁盘子系统中实际上有很多内容需要监控:

  • 文件系统健康状况:chkdisk 或 fsdisk(文件系统与物理阵列的健康状况不同 - 但物理问题当然通常会导致 FS 损坏)。
  • RAID 健康:包括任何 RAID 配置和 RAID 控制器电池的状态。例如,磁盘是否从阵列中掉线,是否正在重建?
  • 每个磁盘的预测磁盘故障:参见聪明的
  • 工作温度(不特定于磁盘,但很重要)。
  • 固件/驱动程序更新

您可能还想监视磁盘子系统的性能:

  • 读/写操作的平均时间
  • 读/写次数
  • 磁盘操作队列

像 Nagios 这样的系统有各种插件,可以根据这些故障发出警报。通常,您需要一个像 Dell openmanage 或 MegaCLI 这样的实用程序来通过 SNMP 监控 RAID 的状态。这些工具通常也可以自己向您发出警报,但这不是集中式的。

答案2

大多数现代硬盘都内置有监控功能,称为聪明的(维基百科)

有许多适用于您的操作系统的工具可以监控这一点。

对于窗口,请查看

Active@硬盘监视器免费软件只是作为起点

您的 RAID 控制器可能也内置了 SMART 监控,因此如果这是用于服务器的话,请查看那里。

答案3

事件日志、WMI、SNMP。

大多数服务器级 RAID 控制器将包含软件来启用 Windows 和其他操作系统中的一个或全部功能。

通常还会有电子邮件提醒。

我们每周或每天对 RAID 进行一致性检查,并定期备份。

相关内容