我们的突袭阵列为何失败？

Question 1

多个硬盘连续发生故障并不像人们想象的那么罕见。故障往往发生在所谓的浴缸曲线- 初始速率较高，因为制造缺陷会导致故障，在驱动器的典型使用寿命内会降至相对较低的速率，然后随着设计使用寿命的延长而磨损，速率再次上升。驱动器是机械的，服务器驱动器一直在运行。

当一个驱动器发生故障时，另一个驱动器发生故障的可能性仍然只是稍微大一些，但是这种故障通常会导致压力增加，这有点矛盾，因为 RAID 重建过程迫使驱动器执行大量的密集 IO。

最后，SMART 并不是一个可靠的可靠性指标，它有一定的好处，但总体来说并不是很好——谷歌在这方面有一些非常好的长期研究结果，你可以找到此处（大量磁盘驱动器的故障趋势）。

基本信息是，当您长时间运行 RAID 包时，您承担的风险会越来越大，而且比很多人预期的要高（这里多驱动器故障的报告数量就是明证）。第二条信息是，RAID 可用于提高平均可用性，但始终确保您有一个可接受的备份策略，以防您是那些不幸的人之一。

Answer

多个硬盘连续发生故障并不像人们想象的那么罕见。故障往往发生在所谓的浴缸曲线- 初始速率较高，因为制造缺陷会导致故障，在驱动器的典型使用寿命内会降至相对较低的速率，然后随着设计使用寿命的延长而磨损，速率再次上升。驱动器是机械的，服务器驱动器一直在运行。

当一个驱动器发生故障时，另一个驱动器发生故障的可能性仍然只是稍微大一些，但是这种故障通常会导致压力增加，这有点矛盾，因为 RAID 重建过程迫使驱动器执行大量的密集 IO。

最后，SMART 并不是一个可靠的可靠性指标，它有一定的好处，但总体来说并不是很好——谷歌在这方面有一些非常好的长期研究结果，你可以找到此处（大量磁盘驱动器的故障趋势）。

基本信息是，当您长时间运行 RAID 包时，您承担的风险会越来越大，而且比很多人预期的要高（这里多驱动器故障的报告数量就是明证）。第二条信息是，RAID 可用于提高平均可用性，但始终确保您有一个可接受的备份策略，以防您是那些不幸的人之一。

Question 2

G3 现在已经很老了，我认为您看到的是 MTBF 钟形曲线的另一侧。

Answer

G3 现在已经很老了，我认为您看到的是 MTBF 钟形曲线的另一侧。

Question 3

您是否检查过环境监测记录？是否有任何电力或冷却事件？

Answer

您是否检查过环境监测记录？是否有任何电力或冷却事件？

Question 4

我没有使用过 HP 硬件，因此无法对此发表意见。但 SMART 在预测驱动器故障方面并不是特别擅长。

Answer

我没有使用过 HP 硬件，因此无法对此发表意见。但 SMART 在预测驱动器故障方面并不是特别擅长。

相关内容