我们有一个自定义服务器,其详细信息如下:
- 主板 Supermicro X8DTL-3
- Raid 控制器 HP 智能阵列 p400(512G BBWC)
- 硬盘背板 Supermicro SAS825TQ
- 3 块 Seagate Barracuda HDD,1TB(Raid 5)
- 主机:Vmware ESXI 6.0
- VM:CentOS 6.x 和 7.x
我的服务器负载异常增加。当我检查时,我在启动过程中遇到了 RAID 错误 1792 和 1779。重新启用 RAID 后,我们检查了硬盘,RAID 管理软件显示它们正常。
然后我们用Windows版的SeaTools测试了硬盘(SMART,短时间测试和长时间测试)。两个硬盘有严重问题,测试失败。
在典型的 HP 服务器(例如 DL380 G7)中,HDD LED 的颜色会从绿色变为橙色以指示问题,但在像我们这样的定制服务器中,此功能不可用。
我的问题是,我们如何在丢失数据之前检测硬盘问题?
答案1
应该有可用的工具来查询您的 RAID 控制器并确定阵列中驱动器的 SMART 状态。由于不知道您拥有的具体设备,我无法就使用什么提出任何建议。
一旦你知道该用什么(以及如何使用它),你就需要自动化监控,这样当出现问题时它会主动通知你(因为你会忘记手动检查——我保证它)。如果幸运的话,RAID 控制器的管理工具可能内置了这样的功能,但更有可能的是,您需要编写某种脚本来运行管理工具,如果它报告问题,则向您发送电子邮件。
答案2
有很多工具可以帮助您监控硬盘状态并预测它们何时会出现故障或已经出现故障,以便尽快更换它们。
由于您没有提到服务器上运行的是什么操作系统,我无法为您提供更具体的建议。
答案3
这ESXi 6.0 不支持 P400因此您将无法从控制器获得健康状态。