为什么 RAID-0 卷会随机发生故障而驱动器状况良好?

为什么 RAID-0 卷会随机发生故障而驱动器状况良好?

我有一对 5 年保修的 WD Velociraptor 硬件,它们被安装在英特尔 ICH8R 主板控制器上,已经有 1.5 年了。

有一天,该卷在没有特定活动的情况下随机出现故障,并且 RAID bios 指示其中一个驱动器出现故障。

我使用 Spinrite 和 WD Diag 对每个驱动器进行了广泛的诊断,没有发现任何表面问题、没有扇区错误,也没有 SMART 警告。

然后,我使用相同的驱动器重新创建了卷,从备份中恢复,并且已经正常运行了 2 周,没有任何问题。

发生了什么?

我的硬盘还好吗?我的某个硬盘是不是出了什么问题,但诊断程序却没有发现?

答案1

您遇到了条带化阵列最严重的问题。RAID0 完全无法容忍任何 IO 中断。如果任何驱动器出现故障,您将需要从头开始重建阵列。这就是为什么我几乎总是使用 RAID 级别 1 或更高级别。

许多因素都可能导致驱动器出现暂时的 IO 问题:电源波动、过热、振动和连接处脏污只是其中的几种。系统中的灰尘会堆积,导致气流问题和热量积聚。灰尘还会进入连接处。
您可能需要清洁机器内部,清除堆积的灰尘和污垢,然后重新安装所有驱动器连接处。测量内部温度,不仅要测量系统主板上的温度,还要测量驱动器附近或驱动器之间的温度。如果温度过高,请增加气流。这应该可以解决热量和连接处脏污的问题。

电源问题完全是另一回事。如果你有足够的电力和过滤,那应该不是问题。如果你把机器挂在主电源上,没有任何线路调节或 UPS,那你就是在自找麻烦。

答案2

有时我会看到原本健康的驱动器/RAID 控制器转储驱动器,仅仅是因为它们没有在合理的时间内响应控制器请求。

  • 您的 SATA 电缆是否牢固且没有任何堵塞?重新安装它们并检查电缆末端是否有弯曲、损坏或卷曲的电缆。

  • 您正在运行最新的 BIOS 吗?

  • 您是否正在运行最新的驱动程序(在 Windows 中)?

我相信该特定芯片组上的旧版本驱动程序存在一些与 RAID 相关的问题,但我找不到具体信息。

您可能还想尝试使用端口 3-5(请参阅英特尔的文档)如果其他方法都失败,请考虑使用 3ware raid 控制器。

答案3

我使用 Spinrite 和 WD Diag 对每个驱动器进行了广泛的诊断,没有发现任何表面问题、没有扇区错误,也没有 SMART 警告。

我不得不承认,这真是一个令人印象深刻的故障排除过程,毕竟,如果我认为硬盘出了什么问题,我会感到惊讶。但在进一步阅读您的帖子后,我想我找到了问题所在。

英特尔 ICH8R 主板控制器

既然你要去速度而不是数据冗余,我明白为什么使用板载控制器看起来很有吸引力,但实际上几乎全部板载 RAID 控制器(尤其是消费者级别主板)都是垃圾。Highpoint、Intel、nVidia……都是垃圾。

关于电源,Rik 的观点其实很有道理。电源波动不仅会对计算机产生不利影响,还会对硬盘产生不利影响。更简单、更便宜为您的计算机使用UPS(不间断电源)来解决电源问题。

我的硬盘还好吗?我的某个硬盘是不是出了什么问题,但诊断程序却没有发现?

由于您运行的是 RAID 0,因此我认为总是出现问题的风险。幸好你在其他地方有备份映像。不过我不得不说,我怀疑你的驱动器有什么问题。运行 Spinrite、WDDiag 并查找 SMART 信息非常彻底。很有可能,我会责怪板载控制器。我运行过软件 RAID、板载控制器 RAID(两者皆有)前)和现在硬件 RAID,我可以毫不怀疑地说软件和板载最终完全浪费了我的时间。我不能具体谈论 RAID 0,但如果我不得不猜测问题是什么,我会看看控制器。

如果钱不是问题,我会建议除了 UPS 之外,还买一个硬件 RAID 控制器。2 端口 RAID 控制器并不太贵,而且讽刺的是,我从来没有运行过 RAID 0,所以我甚至不能证明更好的 RAID 控制器(来自 3Ware、Areca、LSI、Adaptec 等)会怎么样,但我更多的确保我列出的制造商之一的 PCIe RAID 控制器能够不太可能随机破坏你的剥离阵列。

相关内容