根据经验,我知道每个硬盘都会出现故障,这只是时间问题。
我已经从痛苦中吸取了教训,现在我会备份。
当我购买新硬盘时,我经常将硬盘列表与保修期分开。硬盘制造商是为了赚钱,显然,大多数情况下,他们设计的硬盘至少可以使用保修期。因此,过了保修期后,我预计故障率会更高。我的 RAID 5 的 3 个硬盘中已经有 2 个几乎同时发生故障(第二个硬盘在重建阵列时发生故障,是的,我最近有备份)。
我的问题是:保修期过后预防性更换 RAID 中的硬盘的最佳做法是什么?
你在乎这个吗?你要更换阵列中的多少个驱动器?
响应注意事项
创建新阵列时:使用不同制造商/批次的驱动器。
拥有旧阵列时:添加新备用阵列。
答案1
这取决于您谈论的是服务器级设备还是桌面级设备。
如果这是一台用您自己的钱和现成的驱动器构建的台式机,并且您不担心兼容性,那么您的策略是合理的。每隔 X 年,出去购买全新的驱动器来替换您当前的驱动器。它们将更快、更安静、更大。您可以单独更换驱动器,让阵列自行重建,然后在重建完成后,重新配置阵列以使其更大。(并非所有 raid 适配器都支持这样的操作 - 在线重建和大小更改。)
如果是服务器级机器,如 HP Proliant 或 IBM System X,情况会变得更加复杂。您可能需要使用兼容列表中的硬盘作为 RAID 适配器。在这种情况下,硬盘会很贵,因为它们可能不再生产,或者它们本来就很贵,用于服务器级产品。更糟糕的是,您可能会从经销商处购买翻新设备,但对此并不知情 - 这在服务器经销商中并不罕见。
此外,您可能会丢弃使用寿命完好的驱动器,并用注定会出现问题的驱动器替换它们。与其主动更换这些驱动器,不如从一开始就使用热备用驱动器构建服务器,并确保您的 RAID 阵列支持使用热备用驱动器自动重建。这样,重建就会在您起床进入数据中心之前完成,您可以随时更换坏掉的驱动器,而无需花费金钱或时间。
答案2
这谷歌关于硬盘故障率的研究研究表明,与使用年限的相关性比之前怀疑的要小。我听到的最好建议是避免创建来自同一批次或同一制造商的磁盘阵列。谷歌的研究表明,来自同一制造批次的驱动器同时发生故障之间存在很强的相关性。
如果您担心 RAID 数据集的可靠性,我强烈建议您转向 RAID10,或者失败则转向 RAID6。
考虑到 MTBF 和每 Gb 读取的错误率,重建降级的 RAID5 组时发生双重故障的可能性太高,对于当今市场上的 TB 级驱动器来说,这是令人无法接受的。refhttp://hardware.slashdot.org/hardware/08/10/21/2126252.shtml
答案3
我完全同意同一批驱动器在很短的时间内全部出现故障。我有 10 个戴尔工作站,4 年后,其中 6 个驱动器在 12 个月内全部出现故障。
对于生产服务器,我总是从戴尔这样的地方购买,并确保他们至少在我计划运行服务器的时间内(通常是 4 年)储备备件。
我有 3 台带 RAID 的服务器,其中一个驱动器发生故障。我从来没有热备件,但戴尔第二天就给我更换了驱动器,重建很快就完成了。再加上适当的备份,你应该没事了。
答案4
您可以尝试使用 raid6。它可以承受 2 个磁盘故障,请确保始终有一个热备用磁盘。