长话短说,对于我在这里的第一个线程,我设置了一个软件 RAID5 阵列,如下所示:4 个磁盘设备,每个磁盘设备上都有一个 linux-RAID 分区。这些磁盘是: /dev/sda1 /dev/sdb1 /dev/sdd1 /dev/sde1
/dev/md0 是带有加密 LVM 的 raid5 设备。我使用 cryptsetup 打开设备,然后使用 vgscan 和 lvcan -a 映射我的卷。
昨天,我发现 /dev/sdd1 出现故障。以下是我遵循的步骤:
0.删除故障磁盘
# mdadm --remove /dev/md0 /dev/sdd1
1.检查有故障的驱动器
mdadm --examine /dev/sdd1
我收到“无法读取元数据”错误。
2.尝试读取分区表
我使用parted并发现我的Linux-RAID分区消失了,当我尝试重新创建它(希望能够重新添加驱动器)时,我得到了“您的设备不可写”
所以,很明显:硬盘已经死了。
3.从我的机箱中取出硬盘(坏事接踵而至)
因此,我尝试从我的机箱中提取 /dev/sdd1,但不知道它是 4 个驱动器中的哪一个。所以我拔掉一根 SATA 电缆,发现我刚刚拔掉了 /dev/sde1 ;我重新插上它并拔掉了下一个,不错!它是/dev/sdd1
4.我做了什么?!悲伤的脸
使用 :
# mdadm --detail /dev/md0
我意识到 /dev/sde1 将数组标记为“已删除”。我尝试重新添加它,不使用 --re-add,但是:
mdadm --add /dev/md0 /dev/sde1
/proc/mdstat 向我展示了重建过程,并且 mdadm --detail /dev/md0 将 /dev/sde1 显示为“备用”;我知道我可能在这里做了一些可怕的事情。
我尝试从阵列中删除 /dev/sde1 并使用 --re-add 但 mdadm 告诉我他不能这样做并建议我停止并重新组装阵列
5. 下一步该去哪里?
首先,我正在等待新的硬盘来替换有故障的硬盘。一旦我拥有它并将其设置为新的 Linux-RAID 分区设备(称为 /dev/sdd1),我将不得不停止该阵列(LVM 卷不再安装,显然,cryptsetup 关闭了加密设备,但是mdadm 尚未能够停止该阵列)。我正在考虑重新启动整个系统并从头开始工作。这是我认为我应该做的:
# mdadm --stop /dev/md0
# mdadm --stop /dev/md0
# mdadm --examine /dev/sd*1
# mdadm --assemble --scan --run --verbose
我读到,如果没有 --run 选项,mdadm 将拒绝扫描降级的数组。
最佳情况:重新组装过程可以识别 /dev/sde1,并使用新的 /dev/sdd1 来修复之前的故障。我不会丢失任何数据并且会很高兴。
最坏也是最常见的情况:重新组装阵列无法恢复 /dev/sde1,我必须从一个空白的新阵列开始。
我在这里错过了什么吗?我应该从这个程序中审查什么?
来自法国的最诚挚的问候
答案1
所以,我能够完全康复,感谢这个链接
我所做的如下:
- 我更换了有故障的磁盘并重新启动了服务器。
然后,我将新磁盘格式化为 Linux-RAID 分区类型。
# mdadm --examine /dev/sda1 /dev/sdb1 /dev/sdd1 /dev/sde1
然后,根据上面的链接,我根据 --examine 命令给出的信息(重新)创建了数组。
# mdadm --create /dev/md0 --level=5 --raid-devices=4 --chunk=512 --name=server:0 /dev/sda1 /dev/sdb1 missing /dev/sde1 --assume-clean
正如此链接所述, --assume-clean 成功了!它避免了 /dev/sde1 的“备用”状态,并将其用作新阵列的活动部分。
从“现有”设备重新创建阵列时的关键问题可能是不要弄乱块参数,除非您会丢失数据。
然后我将新设备添加到这个新数组中:
# mdadm --add /dev/md0 /dev/sde1
服务器开始重建(10 Tb 花了 6 小时),之后,我强制对整个阵列进行完整性检查(也花了 6 小时)
我一切都恢复了,我很放心!