如何排除 RAID 阵列故障？

Question

看到您在输出中没有看到损坏的驱动器（标记为 F）cat /proc/mdstat，因为阵列已降级，所以您已经启动了服务器。

您可以使用获取信息mdadm --detail /dev/md0。这可能会告诉您其中应该包含哪个其他驱动器。

回应您的编辑：

我会/dev/sdb先进行分析。使用smartctl -a检查（特别是）重新分配的扇区数和错误日志。使用进行自检smartctl -t long /dev/sdb。使用badblocks等。

然后：

如果替换/dev/sdb，请从复制分区表/dev/sdc。如果它们不是 GPT，您可以使用sfdisk -d /dev/sdc | sfdisk /dev/sdb。或者，如果它们是 GPT，您可以使用gdisk将分区表保存到文件，然后加载它。它隐藏在高级功能下。
需要考虑的一般事项：如果你的（新）驱动器有 4k 扇区，请确保分区4k 对齐。
如果您要重新添加现有的/dev/sdb，您可能需要mdadm --zero-superblock在所有现有分区上运行。
然后你可以mdadm --manage /dev/md0 --add /dev/sdb6和同样的md1事情sdb7

不用说，如果你混淆了驱动器，某些命令会清除你的数据。所以，一定要确定什么sdc是sdb...

编辑：关于坏块：如果任何软件级工具发现坏块，则表示驱动器已损坏。通常，磁盘通过在写入时透明地重新分配它们来隐藏它们。谷歌搜索“硬盘驱动器扇区重新分配”。您的smartctl -a输出应显示重新分配的扇区sdb。所以是的，您的sdb已被踢出阵列，您需要替换它。

编辑：关于smartctl -a输出。其中有两件事至关重要：

它显示有 60 个重新分配的扇区。尽管标准值仍为 99，并且只有当它达到 36（倒计时）时才会正式成为“坏的”，但您不应该信任开始重新分配扇区的磁盘。因此，特别是当这个值开始改变时，原始值就很重要了。您甚至可以配置smartd来为您监控它。
错误日志显示 42372 小时后的条目。您可以判断这是最近的，因为参数 9（在您的例子中），。Power on hours有些无害的事情可能会导致 SMART 错误日志条目，例如给出错误的 ATA 命令，但在这种情况下，由于您的阵列已降级，因此它们可能是相关的。

至于确定系统中的哪个磁盘；例如，执行dmesg |grep -i sdb会有所帮助。您的系统中可能有三个磁盘，并且sdb是第二个 SATA 控制器上的磁盘，可以命名为 1 或 2，具体取决于它是从零开始还是从一开始。

因为您可能从启动sda，所以您只需替换sdb并执行我上面概述的操作即可。如果您的启动驱动器损坏，您希望您有：

sdb前几天，我使用戴尔服务器时，发现当其中有空白时，它不愿意从那里启动sda。这需要一些说服和改进。

有时您需要将名称转换ata1.01为真实设备名称。例如，故障磁盘将给出内核错误，提示“ATA 异常出现在 ata1.01”或类似内容。阅读这个答案为此。（我配置了我们的中央日志系统来警告我这些内核错误，因为它们是即将发生磁盘故障的可靠指示）。

Answer 1