RAID:在磁盘发生故障之前更换磁盘

RAID:在磁盘发生故障之前更换磁盘

我们有一个 RAID 5 设置(Megaraid SAS ROMB),其中有 4 个 930 Gb 物理磁盘作为 2.7 TB VD 运行。最近(几个月前),我们的一个驱动器出现故障,不得不将其置于降级模式很长时间(各种因素,希望我们没有这样做,但这不在问题范围内)。我们更换了磁盘并重建。最近几周,我们注意到其中一个物理磁盘上持续存在未恢复的介质错误 - 基本上是第一次故障之前的错误,并且频率与第一次故障发生之前一样(大约每分钟发生 5 次,每次记录 4-8 个错误)。值得庆幸的是,现在的预算要好得多,所以我们已经准备好了替换磁盘。

唯一的问题,对我来说唯一陌生的是,我们执行这些步骤的阵列,就 MegaRAID Storage Manager 而言,仍然是最佳的。关于更换降级阵列中的磁盘,有很多信息(更不用说我只是重复了以前做过的步骤),但我找不到任何关于如何在驱动器发生故障之前主动执行此操作的额外信息。

我相信整个过程本质上是相同的,只是增加了第一步,但如果我在这里错过了什么,我将非常感谢您的纠正:

  1. 在存储管理器中,将有问题的物理磁盘标记为脱机(如果我有正确的存储棒,这将导致 VD 进入降级模式)

  2. 关掉电脑

  3. 更换驱动器

  4. 打开电脑

  5. 开始重建

现在,我把这些步骤搞得有多糟糕?(这可能值得注意,也是我在这里仔细检查的原因,问题出在计算机也是 DC)

答案1

多年来,我管理/损坏过许多 RAID 5 阵列,处理这种情况时我总是深吸一口气。您应该能够采取这些确切的步骤(无需步骤 1),控制器应该会找出您所做的操作并重建阵列。基本上,控制器将看到插槽中的驱动器丢失,并且需要将新驱动器折叠到阵列中。

我想任何人都会同意,在采取这些步骤之前,最好先备份关键数据 - 我的意思是,我相信你已经这样做了:)

最糟糕的情况应该是控制器不对新驱动器做任何事情,它只是以降级方式运行阵列,直到您更换丢失的驱动器。如果这是一个较旧的控制器,我会更担心,但鉴于这是一个较新的控制器,它肯定能够智能地做到这一点。

相关内容