您使用什么策略来监控服务器硬盘的运行状况?您是否安排了自动 chkdsk 并报告?如何收到故障警报?
答案1
磁盘子系统中实际上有很多内容需要监控:
- 文件系统健康状况:chkdisk 或 fsdisk(文件系统与物理阵列的健康状况不同 - 但物理问题当然通常会导致 FS 损坏)。
- RAID 健康:包括任何 RAID 配置和 RAID 控制器电池的状态。例如,磁盘是否从阵列中掉线,是否正在重建?
- 每个磁盘的预测磁盘故障:参见聪明的
- 工作温度(不特定于磁盘,但很重要)。
- 固件/驱动程序更新
您可能还想监视磁盘子系统的性能:
- 读/写操作的平均时间
- 读/写次数
- 磁盘操作队列
像 Nagios 这样的系统有各种插件,可以根据这些故障发出警报。通常,您需要一个像 Dell openmanage 或 MegaCLI 这样的实用程序来通过 SNMP 监控 RAID 的状态。这些工具通常也可以自己向您发出警报,但这不是集中式的。
答案2
大多数现代硬盘都内置有监控功能,称为聪明的(维基百科)
有许多适用于您的操作系统的工具可以监控这一点。
对于窗口,请查看
Active@硬盘监视器免费软件只是作为起点
您的 RAID 控制器可能也内置了 SMART 监控,因此如果这是用于服务器的话,请查看那里。
答案3
事件日志、WMI、SNMP。
大多数服务器级 RAID 控制器将包含软件来启用 Windows 和其他操作系统中的一个或全部功能。
通常还会有电子邮件提醒。
我们每周或每天对 RAID 进行一致性检查,并定期备份。