导致系统崩溃的严重 RAID 问题

Question 1

我看到的最大问题是

mdadm: /dev/sdd1 appears to contain an ext2fs file system

此外，这些分区应标记为RAID 成员（类型 fd），而不是 Linux 文件系统。

这意味着 extfs 工具（如 fsck）可以锁定超级块，并严重破坏您的世界。我强烈建议您在使用 dd 将驱动器添加到阵列之前彻底擦除驱动器，如下所示。

dd if=/dev/zero of=/dev/bye-bye-entire-sd-device

确保您使用文件系统而不是成员来格式化 MD 设备。

如果所有方法都成功并且您仍然看到随机损坏，那么您可能有一些边缘内存会不时地写回垃圾并破坏您的磁盘。

进一步参考：https://raid.wiki.kernel.org/index.php/RAID_setup

Answer

我看到的最大问题是

mdadm: /dev/sdd1 appears to contain an ext2fs file system

此外，这些分区应标记为RAID 成员（类型 fd），而不是 Linux 文件系统。

这意味着 extfs 工具（如 fsck）可以锁定超级块，并严重破坏您的世界。我强烈建议您在使用 dd 将驱动器添加到阵列之前彻底擦除驱动器，如下所示。

dd if=/dev/zero of=/dev/bye-bye-entire-sd-device

确保您使用文件系统而不是成员来格式化 MD 设备。

如果所有方法都成功并且您仍然看到随机损坏，那么您可能有一些边缘内存会不时地写回垃圾并破坏您的磁盘。

进一步参考：https://raid.wiki.kernel.org/index.php/RAID_setup

Question 2

由于您没有提到在 RAID 阵列上创建文件系统并在创建阵列后挂载它，并mdadm警告您 /dev/sdc1 中已经有一个 ext2 文件系统，我猜您的意思是您在 /dev/sdc1 中已经有一个文件系统，而这就是正在以只读方式重新挂载的文件系统。这是因为从磁盘或分区创建 RAID 阵列通常是一种破坏性操作，因此为什么要mdadm警告您。通过将 RAID 元数据写入分区，您已经损坏了那里的现有文件系统。

此时，如果您想恢复 /dev/sdc1 中的现有数据，则需要尝试撤消已造成的损坏。首先卸载旧文件系统，然后删除您创建的 raid 超级块，然后 fsck 旧文件系统并希望它可以修复：

umount /dev/sdc1
mdadm --zero-superblocks /dev/sdc1 /dev/sdd1
e2fsck -fy /dev/sdc1

要将现有文件系统升级为 raid1，首先需要使用以下命令创建 raid 阵列仅有的新磁盘，然后手动将所有文件从旧 FS 复制到新磁盘：

mdadm --create --level 1 -n 2 /dev/sdd1 missing
mkfs.ext4 /dev/md0
mkdir /mnt/new
mkdir /mnt/old
mount /dev/md0 /mnt/new
mount /dev/sdc1 /mnt/old
cp -ax /mnt/old/* /mnt/new/
umount /mnt/old
umount /mnt/new
rmdir /mnt/old
rmdir /mnt/new

现在编辑 /etc/fstab 以将新卷挂载在 /dev/md0 中，而不是将旧卷挂载在 /dev/sdc1 中，最后您可以将 /dev/sdc1 交给 md，以将 /dev/sdd1 中的所有内容镜像到：

mdadm /dev/md0 --add /dev/sdc1

您可以使用blkid它在 raid 阵列中查找新文件系统的 UUID，并使用它来替换 /etc/fstab 中的旧 UUID。此外，所有这些命令都必须以 root 身份运行，因此您需要sudo -s先成为 root。

最后，仅供参考，您可能希望使用 raid10 而不是 raid1。使用偏移布局（-p o2to mdadm）和较大的块大小（ -c 1024 to 4096 ），您可以获得 raid1 的冗余度以及 raid0 的连续读取吞吐量。

Answer

由于您没有提到在 RAID 阵列上创建文件系统并在创建阵列后挂载它，并mdadm警告您 /dev/sdc1 中已经有一个 ext2 文件系统，我猜您的意思是您在 /dev/sdc1 中已经有一个文件系统，而这就是正在以只读方式重新挂载的文件系统。这是因为从磁盘或分区创建 RAID 阵列通常是一种破坏性操作，因此为什么要mdadm警告您。通过将 RAID 元数据写入分区，您已经损坏了那里的现有文件系统。

此时，如果您想恢复 /dev/sdc1 中的现有数据，则需要尝试撤消已造成的损坏。首先卸载旧文件系统，然后删除您创建的 raid 超级块，然后 fsck 旧文件系统并希望它可以修复：

umount /dev/sdc1
mdadm --zero-superblocks /dev/sdc1 /dev/sdd1
e2fsck -fy /dev/sdc1

要将现有文件系统升级为 raid1，首先需要使用以下命令创建 raid 阵列仅有的新磁盘，然后手动将所有文件从旧 FS 复制到新磁盘：

mdadm --create --level 1 -n 2 /dev/sdd1 missing
mkfs.ext4 /dev/md0
mkdir /mnt/new
mkdir /mnt/old
mount /dev/md0 /mnt/new
mount /dev/sdc1 /mnt/old
cp -ax /mnt/old/* /mnt/new/
umount /mnt/old
umount /mnt/new
rmdir /mnt/old
rmdir /mnt/new

现在编辑 /etc/fstab 以将新卷挂载在 /dev/md0 中，而不是将旧卷挂载在 /dev/sdc1 中，最后您可以将 /dev/sdc1 交给 md，以将 /dev/sdd1 中的所有内容镜像到：

mdadm /dev/md0 --add /dev/sdc1

您可以使用blkid它在 raid 阵列中查找新文件系统的 UUID，并使用它来替换 /etc/fstab 中的旧 UUID。此外，所有这些命令都必须以 root 身份运行，因此您需要sudo -s先成为 root。

最后，仅供参考，您可能希望使用 raid10 而不是 raid1。使用偏移布局（-p o2to mdadm）和较大的块大小（ -c 1024 to 4096 ），您可以获得 raid1 的冗余度以及 raid0 的连续读取吞吐量。

Question 3

在所有错误的地方寻找爱情......

感谢 psusi 和 ppetraki 的帮助性回复。你们每个人都让我对 Linux 下 RAID 的运作方式有了更多的了解。

事实证明磁盘或管理我用来创建和操作 RAID 阵列的命令。一旦我发现ATA8内核消息，我使用它们作为密钥在互联网上搜索，发现其他人报告了与 Marvel SATA 控制器相关的类似消息。我有一块华硕 Z9PE-D8 WS 主板，主板上有一个 Marvel PCIe 9230 控制器，可驱动四个用于这些磁盘的 SATA-III 端口。我从这些端口拔下驱动器，将它们连接到主板上由 Intel C602 芯片组驱动的其他 SATA 端口，然后重新启动。此时，我可以构建多个阵列、重新配置它们等，没有任何问题！

带有根文件系统的单个 SSD 仍连接到 Marvel 控制器，并且运行正常。不过，我现在不打算尝试镜像此驱动器，直到它也从 Marvel 控制器中移除。

我正在尝试从华硕那里获取有关此问题的一些信息。我不知道这是否表明存在硬件或 BIOS 问题。到目前为止，华硕技术支持对我的请求的响应很慢。我对他们的服务印象不深。

如果有人有与 Marvel 控制器问题相关的更多信息，我将非常高兴听到。

所以，我暂时又恢复了工作，但系统还差四个 SATA-III 端口才能正常工作。再次感谢您的帮助。

Answer