如何让不活动的 RAID 设备重新工作？

Question 1

对于您的附加问题：

mdadm --examine --scan >> /etc/mdadm/mdadm.conf

Answer

对于您的附加问题：

mdadm --examine --scan >> /etc/mdadm/mdadm.conf

Question 2

我发现我必须手动添加阵列才能/etc/mdadm/mdadm.conf让 Linux 在重启时挂载它。否则，我得到的正是您在这里得到的 -md_d1不活动的设备等。

conf 文件应如下所示 - 即ARRAY每个 md 设备一行。在我的例子中，此文件中缺少新数组，但如果您已列出它们，则这可能无法解决您的问题。

# definitions of existing MD arrays
ARRAY /dev/md0 level=raid5 num-devices=3 UUID=f10f5f96:106599e0:a2f56e56:f5d3ad6d
ARRAY /dev/md1 level=raid1 num-devices=2 UUID=aa591bbe:bbbec94d:a2f56e56:f5d3ad6d

为每个 md-device 添加一个数组，并将它们添加到上述注释之后，或者如果不存在这样的注释，则添加到文件末尾。您可以通过执行以下操作获取 UUID sudo mdadm -E --scan：

$ sudo mdadm -E --scan
ARRAY /dev/md0 level=raid5 num-devices=3 UUID=f10f5f96:106599e0:a2f56e56:f5d3ad6d
ARRAY /dev/md1 level=raid1 num-devices=2 UUID=aa591bbe:bbbec94d:a2f56e56:f5d3ad6d

正如您所见，您可以将扫描结果的输出复制到文件中。

我运行的是 ubuntu 桌面 10.04 LTS，据我所知，这种行为与 Ubuntu 的服务器版本不同，但是我很久以前在服务器上创建了 md-devices，我可能错了。也可能是我错过了一些选项。

无论如何，在 conf 文件中添加阵列似乎可以解决问题。我已经运行上述 raid 1 和 raid 5 多年了，没有出现任何问题。

Answer

我发现我必须手动添加阵列才能/etc/mdadm/mdadm.conf让 Linux 在重启时挂载它。否则，我得到的正是您在这里得到的 -md_d1不活动的设备等。

conf 文件应如下所示 - 即ARRAY每个 md 设备一行。在我的例子中，此文件中缺少新数组，但如果您已列出它们，则这可能无法解决您的问题。

# definitions of existing MD arrays
ARRAY /dev/md0 level=raid5 num-devices=3 UUID=f10f5f96:106599e0:a2f56e56:f5d3ad6d
ARRAY /dev/md1 level=raid1 num-devices=2 UUID=aa591bbe:bbbec94d:a2f56e56:f5d3ad6d

为每个 md-device 添加一个数组，并将它们添加到上述注释之后，或者如果不存在这样的注释，则添加到文件末尾。您可以通过执行以下操作获取 UUID sudo mdadm -E --scan：

$ sudo mdadm -E --scan
ARRAY /dev/md0 level=raid5 num-devices=3 UUID=f10f5f96:106599e0:a2f56e56:f5d3ad6d
ARRAY /dev/md1 level=raid1 num-devices=2 UUID=aa591bbe:bbbec94d:a2f56e56:f5d3ad6d

正如您所见，您可以将扫描结果的输出复制到文件中。

我运行的是 ubuntu 桌面 10.04 LTS，据我所知，这种行为与 Ubuntu 的服务器版本不同，但是我很久以前在服务器上创建了 md-devices，我可能错了。也可能是我错过了一些选项。

无论如何，在 conf 文件中添加阵列似乎可以解决问题。我已经运行上述 raid 1 和 raid 5 多年了，没有出现任何问题。

Question 3

警告：首先我要说的是，下面的操作（由于使用了“--force”）对我来说似乎很危险，如果您有无法恢复的数据，我建议您在开始尝试以下任何操作之前复制相关分区。但是，这对我来说是有效的。

我遇到了同样的问题，阵列显示为非活动状态，而我所做的一切，包括“mdadm --examine --scan >/etc/mdadm.conf”（正如其他人所建议的那样）都没有任何帮助。

就我而言，当它在更换驱动器后尝试启动 RAID-5 阵列时，它说它很脏（通过dmesg）：

md/raid:md2: not clean -- starting background reconstruction
md/raid:md2: device sda4 operational as raid disk 0
md/raid:md2: device sdd4 operational as raid disk 3
md/raid:md2: device sdc4 operational as raid disk 2
md/raid:md2: device sde4 operational as raid disk 4
md/raid:md2: allocated 5334kB
md/raid:md2: cannot start dirty degraded array.

导致其在以下位置显示为非活动状态/proc/mdstat：

md2 : inactive sda4[0] sdd4[3] sdc4[2] sde4[5]
      3888504544 blocks super 1.2

我确实发现所有设备都发生了相同的事件，除了我已更换的驱动器（/dev/sdb4）：

[root@nfs1 sr]# mdadm -E /dev/sd*4 | grep Event
mdadm: No md superblock detected on /dev/sdb4.
         Events : 8448
         Events : 8448
         Events : 8448
         Events : 8448

但是，阵列详细信息显示，它有 5 个设备中的 4 个可用：

[root@nfs1 sr]# mdadm --detail /dev/md2
/dev/md2:
[...]
   Raid Devices : 5
  Total Devices : 4
[...]
 Active Devices : 4
Working Devices : 4
[...]
    Number   Major   Minor   RaidDevice State
       0       8        4        0      inactive dirty  /dev/sda4
       2       8       36        2      inactive dirty  /dev/sdc4
       3       8       52        3      inactive dirty  /dev/sdd4
       5       8       68        4      inactive dirty  /dev/sde4

（以上内容来自“状态”列的内存，我在回滚缓冲区中找不到它）。

我能够通过停止阵列然后重新组装它来解决这个问题：

mdadm --stop /dev/md2
mdadm -A --force /dev/md2 /dev/sd[acde]4

此时阵列已启动，运行 5 个设备中的 4 个，我能够添加替换设备并重建它。我可以毫无问题地访问文件系统。

Answer