如何确定 RAID 阵列故障的原因

如何确定 RAID 阵列故障的原因

我必须调查我们在已安装的 PC 园区(10K+ 台 PC)中遇到的 RAID-1(镜像)阵列故障最近增加的情况。

问题有两个方面:一方面,我们处于试验阶段,从固态硬盘 (SSD) 开始。我们推出了大约 80 台配备 2 个 Kingston V300 60GB SSD 的 RAID-1 PC。在这些安装中,我们发现在最长 3 个月的时间内故障率为 10-15%,这当然是不可接受的。这是在带有板载 Intel ICH7R SATA RAID 控制器的 PC 平台上

第二部分是,我们还发现,在安装了最新 Seagate Barracuda HDD 的现有平台上,故障率出现了惊人的增长。这些系统基于旧的 P4 平台,并使用 Promise FastTrak TX2300 SATA RAID 控制器。7 年来,我们一直使用这些带有相同 RAID 控制器的系统,但只有在最近使用的 Seagate HDD 上,故障率才有所增加。

现在谈谈问题:在这两种情况下,我都无法确定导致此 RAID 阵列发生故障的原因。我收到了两种情况下系统发生故障的示例。问题是,在调查驱动器时,两个驱动器似乎都运行良好,没有报告 SMART 错误,并且所有文件都可读(当然,阵列故障后创建的文件除外)。

当擦除磁盘并重新创建 RAID 阵列时,系统在实验室中运行良好。

有什么工具可以用来进一步分析这些磁盘吗?我相信它们大部分时间都运行良好,但由于短暂的故障,RAID 控制器将它们标记为“坏”。我猜也可能是 RAID 控制器出了问题?如何测试?

上述两个系统均在 Windows POSReady 2009(基本上是 Windows XP)上运行

相关内容