为什么单个预测性磁盘故障会导致 RAID6 阵列故障（以及我们如何阻止它再次发生）？

2024-6-2 • tag-icon

为什么单个预测性磁盘故障会导致 RAID6 阵列故障（以及我们如何阻止它再次发生）？

我们有一台 Dell PowerEdge R740xd，配备 16 个 HDD 和 2 个 SSD。16 个 HDD 组成了一个 15 磁盘 RAID6 阵列（带有一个热备用）。它托管许多虚拟机（使用 HyperV），上周一所有虚拟机都发生故障。经过调查，我们发现磁盘 4 出现预测性故障，其他三个磁盘显示为“外部配置”，导致 RAID6 磁盘处于脱机状态。

尝试将外部配置磁盘重新导入阵列将使阵列返回到降级状态，但任何时候阵列尝试重新调整时，我们都会再次丢失阵列，其中三个磁盘（但不一定是相同的 3 个磁盘）显示为“外部配置”。

三天后，第二天替换的磁盘就到了，我们更换了磁盘 4，并尝试重建阵列，但同样的事情仍然发生。

经过多次反复和尝试上报后，我们最终被告知虚拟磁盘出现故障是我们的错，因为我们“没有及时移除预测故障磁盘”。查看日志，磁盘 4 在 2 月 16 日进入预测故障状态，主机和虚拟机在 2 月 24 日全部出现故障。

这可能是一个幼稚的问题，但是一个“预测性故障”如何能导致能够容忍 2 个磁盘故障而不会丢失数据的 RAID6 阵列崩溃？

显然，如果我们安装 OpenManage，它可以告诉预测故障的磁盘退出阵列。另一个幼稚的问题是，如果在这种情况下存在数据丢失的风险，为什么不将此功能内置到 RAID 控制器中？

反正：

我们已经擦除了虚拟磁盘并使用热备份重建了它
我们现在已经开启警报功能（我们之前假设 RAID6、热备和每月检查足以避免停机）
我们将安装 OpenManage 并设置智能错误功能

最后，最具体的问题是，我们还应该（合理地）做些什么吗？

相关内容