我们有一台旧的 HP DL380 G3,带有 6x36GB Ultra320 SCSI 驱动器,组成 RAID 10 阵列。由于驱动器很旧,我们对其进行了仔细监控 - SMART 故障前指示全部显示正常。然后 4 天后,2 个驱动器发生故障(实际上驱动器可能没有发生物理故障,但 2 个驱动器上的数据已损坏)。怎么会发生这种情况?我不太相信巧合和机会。
我可以相信单个驱动器发生故障,但多个驱动器发生故障让我相信还有更多问题。我听说 DL380 上的 SCSI 背板可能会发生故障 - 有人能根据经验证实这一点吗?我们应该更换 SCSI 背板吗?重建阵列时,我们应该更换所有驱动器吗?
编辑:我查看了我们最近记录的关于此阵列中驱动器累计运行时间的一些统计数据。发生故障的 2 个驱动器的运行时间分别为 0.6 年和 2.7 年。在我看来,这似乎否定了驱动器以完全相同的速度恶化并因此发生故障的时间非常接近的理论。难道累计运行时间数据并不比 SMART 更可靠?
答案1
多个硬盘连续发生故障并不像人们想象的那么罕见。故障往往发生在所谓的浴缸曲线- 初始速率较高,因为制造缺陷会导致故障,在驱动器的典型使用寿命内会降至相对较低的速率,然后随着设计使用寿命的延长而磨损,速率再次上升。驱动器是机械的,服务器驱动器一直在运行。
当一个驱动器发生故障时,另一个驱动器发生故障的可能性仍然只是稍微大一些,但是这种故障通常会导致压力增加,这有点矛盾,因为 RAID 重建过程迫使驱动器执行大量的密集 IO。
最后,SMART 并不是一个可靠的可靠性指标,它有一定的好处,但总体来说并不是很好——谷歌在这方面有一些非常好的长期研究结果,你可以找到此处(大量磁盘驱动器的故障趋势)。
基本信息是,当您长时间运行 RAID 包时,您承担的风险会越来越大,而且比很多人预期的要高(这里多驱动器故障的报告数量就是明证)。第二条信息是,RAID 可用于提高平均可用性,但始终确保您有一个可接受的备份策略,以防您是那些不幸的人之一。
答案2
G3 现在已经很老了,我认为您看到的是 MTBF 钟形曲线的另一侧。
答案3
您是否检查过环境监测记录?是否有任何电力或冷却事件?
答案4
我没有使用过 HP 硬件,因此无法对此发表意见。但 SMART 在预测驱动器故障方面并不是特别擅长。