在降级的 RAID 5 阵列中将磁盘标记为正常是否安全?

在降级的 RAID 5 阵列中将磁盘标记为正常是否安全?

Intel Matrix Storage Console 8.9 显示阵列性能下降,其中一个磁盘发生故障。但它提供了将磁盘标记为正常并重建阵列的选项?什么时候这样做比较合适?它是否错误地评估了磁盘故障?为什么提供此选项?

这是一个测试服务器,我有备份,所以并不十分担心,并尝试将磁盘标记为正常,并且它重建了卷而没有指示进一步的问题。

但无论如何,还是有问题吗?

此外...

如此多的回复让我不禁想知道,测试磁盘的最佳方法是什么。下面提到了 SMART 测试。我可能会移除驱动器,然后重建一个新的驱动器。

我仍然不清楚卷是否可以重建并且不显示错误,就像现有驱动器上已经发生的那样?

答案1

阵列中的驱动器可能因多种原因而被标记为故障。可能是有几个有缺陷的扇区。可能是驱动器磁头出现故障。可能是宇宙射线以正确的角度和时间撞击您的驱动器导致扫描失败。可能是它们的固件存在错误,在 下会崩溃。

有些故障可以修复,有些则不能。

问题是,预测硬盘故障确实非常困难。谷歌臭名昭著的论文发现 SMART 的唯一用处是,如果发出警报,驱动器发生故障的可能性会比不发出警报时更大。36% 的故障驱动器没有 SMART 错误(无论是否致命)。因此,您可以运行全套 SMART 扫描,不会发现任何问题,而且您知道的不会比现在更多。

但是,假设这是一次意外故障,而不是“我做了一些奇怪的事情导致它失败”的故障,您已经知道磁盘存在问题。现在是一个价值问题。

  • 再开一个驱动器要花多少钱?
  • 如果该服务器崩溃了,用户会损失多少时间?
  • 如果该服务器崩溃了,你会浪费多少时间?
  • 所有这些时间值多少钱?
  • 将此值加倍以(天真地)计算机会成本

我从来没有遇到过值得让驱动器发生故障的情况。为什么要忍受这种痛苦?很可能,你需要的驱动器很便宜。只需购买它并继续前进即可。

答案2

我曾经在一个旧的 U160 SCSI 阵列中遇到过一个故障的磁盘盒,它是阵列中的 14 个磁盘之一。当我更换磁盘盒时(磁盘没有问题),它仍然认为磁盘出现故障,因为磁盘具有相同的序列号。

因此我将其标记为 OK,阵列重新构建并且一切都很好,直到我们停止使用它。

这取决于您的情况,但通常我不会将磁盘标记为正常,除非我 100% 确定它正常。即使 99.9% 确定,我也会删除阵列并重新开始。

答案3

如果您关心数据,请立即用新驱动器替换该驱动器并重建阵列。然后,您可以对移除的驱动器进行大量测试,如果测试通过,则重新确认其可供使用。但是,如果您尝试重建发生故障的驱动器,那么如果在重建过程中或之后出现问题,您将延长发生双驱动器故障的时间。

答案4

是的,这很旧但是......

对驱动器进行“确认”的另一个原因是,除非您手头有硬件来更换坏驱动器,否则在坏驱动器上重建阵列基本上不需要花费任何成本,并且如果在更换坏驱动器之前另一个驱动器发生故障,您还有机会继续使用。

具体来说,当驱动器发生故障时,您需要:

  1. 立即备份任何可能尚未备份的关键数据
  2. 启动包含该驱动器的阵列上的所有内容的全新完整备份,同时检查现有的完整系统备份是否存在且可行。
  3. 确定并重新添加故障的驱动器。
  4. 为所有来自同一批次的驱动器寻找长期替代品(其他驱动器很可能来自同一批次,因此现在应该被视为有疑问的),以及任何其他正常运行时间超过 40,000 小时的驱动器
  5. 如果新硬盘不能当天上市,请寻找任何可信赖的硬盘来替换故障硬盘
  6. 如果之前没有这样做,请在每个相关的驱动器上重新安装引导加载程序

此时,您可以重新故障并更换损坏的驱动器(通过在重新同步后手动使其故障,如果情况最坏,您最有可能从中删除有用的数据)并在新驱动器进入时对每个驱动器重复上述操作。

注意:如果它是主驱动器,并且您无法进行热插拔,请准备好将您的 BIOS 指向辅助驱动器进行启动

相关内容