为什么单个预测性磁盘故障会导致 RAID6 阵列故障(以及我们如何阻止它再次发生)?

为什么单个预测性磁盘故障会导致 RAID6 阵列故障(以及我们如何阻止它再次发生)?

我们有一台 Dell PowerEdge R740xd,配备 16 个 HDD 和 2 个 SSD。16 个 HDD 组成了一个 15 磁盘 RAID6 阵列(带有一个热备用)。它托管许多虚拟机(使用 HyperV),上周一所有虚拟机都发生故障。经过调查,我们发现磁盘 4 出现预测性故障,其他三个磁盘显示为“外部配置”,导致 RAID6 磁盘处于脱机状态。

尝试将外部配置磁盘重新导入阵列将使阵列返回到降级状态,但任何时候阵列尝试重新调整时,我们都会再次丢失阵列,其中三个磁盘(但不一定是相同的 3 个磁盘)显示为“外部配置”。

三天后,第二天替换的磁盘就到了,我们更换了磁盘 4,并尝试重建阵列,但同样的事情仍然发生。

经过多次反复和尝试上报后,我们最终被告知虚拟磁盘出现故障是我们的错,因为我们“没有及时移除预测故障磁盘”。查看日志,磁盘 4 在 2 月 16 日进入预测故障状态,主机和虚拟机在 2 月 24 日全部出现故障。

这可能是一个幼稚的问题,但是一个“预测性故障”如何能导致能够容忍 2 个磁盘故障而不会丢失数据的 RAID6 阵列崩溃?

显然,如果我们安装 OpenManage,它可以告诉预测故障的磁盘退出阵列。另一个幼稚的问题是,如果在这种情况下存在数据丢失的风险,为什么不将此功能内置到 RAID 控制器中?

反正:

  • 我们已经擦除了虚拟磁盘并使用热备份重建了它
  • 我们现在已经开启警报功能(我们之前假设 RAID6、热备和每月检查足以避免停机)
  • 我们将安装 OpenManage 并设置智能错误功能

最后,最具体的问题是,我们还应该(合理地)做些什么吗?

相关内容