MDADM - 灾难恢复或从我将 RAID5 阵列置于的状态继续

MDADM - 灾难恢复或从我将 RAID5 阵列置于的状态继续

长话短说,对于我在这里的第一个线程,我设置了一个软件 RAID5 阵列,如下所示:4 个磁盘设备,每个磁盘设备上都有一个 linux-RAID 分区。这些磁盘是: /dev/sda1 /dev/sdb1 /dev/sdd1 /dev/sde1

/dev/md0 是带有加密 LVM 的 raid5 设备。我使用 cryptsetup 打开设备,然后使用 vgscan 和 lvcan -a 映射我的卷。

昨天,我发现 /dev/sdd1 出现故障。以下是我遵循的步骤:

0.删除故障磁盘

#  mdadm --remove /dev/md0 /dev/sdd1

1.检查有故障的驱动器

mdadm --examine /dev/sdd1

我收到“无法读取元数据”错误。

2.尝试读取分区表

我使用parted并发现我的Linux-RAID分区消失了,当我尝试重新创建它(希望能够重新添加驱动器)时,我得到了“您的设备不可写”

所以,很明显:硬盘已经死了。

3.从我的机箱中取出硬盘(坏事接踵而至)

因此,我尝试从我的机​​箱中提取 /dev/sdd1,但不知道它是 4 个驱动器中的哪一个。所以我拔掉一根 SATA 电缆,发现我刚刚拔掉了 /dev/sde1 ;我重新插上它并拔掉了下一个,不错!它是/dev/sdd1

4.我做了什么?!悲伤的脸

使用 :

# mdadm --detail /dev/md0

我意识到 /dev/sde1 将数组标记为“已删除”。我尝试重新添加它,不使用 --re-add,但是:

mdadm --add /dev/md0 /dev/sde1

/proc/mdstat 向我展示了重建过程,并且 mdadm --detail /dev/md0 将 /dev/sde1 显示为“备用”;我知道我可能在这里做了一些可怕的事情。

我尝试从阵列中删除 /dev/sde1 并使用 --re-add 但 mdadm 告诉我他不能这样做并建议我停止并重新组装阵列

5. 下一步该去哪里?

首先,我正在等待新的硬盘来替换有故障的硬盘。一旦我拥有它并将其设置为新的 Linux-RAID 分区设备(称为 /dev/sdd1),我将不得不停止该阵列(LVM 卷不再安装,显然,cryptsetup 关闭了加密设备,但是mdadm 尚未能够停止该阵列)。我正在考虑重新启动整个系统并从头开始工作。这是我认为我应该做的:

# mdadm --stop /dev/md0
# mdadm --stop /dev/md0
# mdadm --examine /dev/sd*1
# mdadm --assemble --scan --run --verbose

我读到,如果没有 --run 选项,mdadm 将拒绝扫描降级的数组。

最佳情况:重新组装过程可以识别 /dev/sde1,并使用新的 /dev/sdd1 来修复之前的故障。我不会丢失任何数据并且会很高兴。

最坏也是最常见的情况:重新组装阵列无法恢复 /dev/sde1,我必须从一个空白的新阵列开始。

我在这里错过了什么吗?我应该从这个程序中审查什么?

来自法国的最诚挚的问候

答案1

所以,我能够完全康复,感谢这个链接

我所做的如下:

  1. 我更换了有故障的磁盘并重新启动了服务器。
  2. 然后,我将新磁盘格式化为 Linux-RAID 分区类型。

    # mdadm --examine /dev/sda1 /dev/sdb1 /dev/sdd1 /dev/sde1
    

然后,根据上面的链接,我根据 --examine 命令给出的信息(重新)创建了数组。

# mdadm --create /dev/md0 --level=5 --raid-devices=4 --chunk=512 --name=server:0 /dev/sda1 /dev/sdb1 missing /dev/sde1 --assume-clean

正如此链接所述, --assume-clean 成功了!它避免了 /dev/sde1 的“备用”状态,并将其用作新阵列的活动部分。

从“现有”设备重新创建阵列时的关键问题可能是不要弄乱块参数,除非您会丢失数据。

  1. 然后我将新设备添加到这个新数组中:

    # mdadm --add /dev/md0 /dev/sde1
    

服务器开始重建(10 Tb 花了 6 小时),之后,我强制对整个阵列进行完整性检查(也花了 6 小时)

我一切都恢复了,我很放心!

相关内容