本周末,运行 CentOS 的专用服务器上的 2 磁盘软件 RAID-1 阵列中的一个驱动器突然出现故障,导致整个服务器瘫痪。虽然我还没有时间查看日志和完整的监控,但似乎没有警告(尽管我并没有专门监控 RAID)。由于我是 RAID 新手,因此对故障有几个疑问:
- RAID 中的磁盘故障是否通常会导致服务器瘫痪?我的理解是 RAID 专门用于防止这种情况。
- 查看日志时,是否有任何日志或特定事物我应该寻找作为原因或前兆?
- 以后我应该如何监控我的 RAID?查看
/proc/mdstat
就够了吗?
答案1
通常磁盘故障不会导致系统崩溃。我遇到过几次磁盘故障,我刚刚收到一封电子邮件,说磁盘出现故障,阵列被标记为降级,我应该更换驱动器。
我会查看 /var/log/messages,因为这类东西通常都存放在那里。如果你想提前收到通知,你应该安装智能工具。如果某件事情可能失败,它们会给你发送电子邮件。
我会查看 /proc/mdstat,设置电子邮件警报并使用 smart 来监控驱动器。然后,您还可以使用 smart 设置每周驱动器测试。