确定驱动器从软件 RAID 阵列中移除的原因并安全重建

Question

我成功重建了阵列，但我仍然不确定是什么错误导致相关驱动器出现故障。smartctl -x尽管总体状态为PASSED，但磁盘上仍记录了一些通用的 URE，这似乎是个假朋友。

如果它对任何人有帮助，我遵循了以下步骤：

运行mdadm --manage /dev/md0 --remove /dev/sdm，但正如我所想的那样，这没有任何效果，因为磁盘已被自动移除。同样mdadm --manage /dev/md0 --fail /dev/sdm没有任何效果，因为磁盘处于移除状态。
注释掉我的数组以/etc/fstab防止它在启动时被安装。
关闭系统。
从驱动器托架中取出故障驱动器，并用新驱动器替换。
重新启动，验证 HBA 在启动时可以看到所有 16 个设备。
使用检查新驱动器（也分配了/dev/sdm）上是否存在分区表parted /dev/sdm print。我使用的 WD 驱动器确实出厂时附带了 GPT 分区表，它显示在这里。我们需要摆脱它。
使用销毁新磁盘上的分区表sgdisk --zap /dev/sdm。这是使用整个磁盘成员时的最佳实践。如果您使用分区作为阵列成员，则可能需要在此步骤中将分区表从工作驱动器复制到新驱动器 - 详细信息可参见这里。无论哪种方式，请确保选择正确的磁盘并按正确的顺序！
使用以下方法添加新磁盘mdadm --manage /dev/md0 --add /dev/sdm
等待（就我而言）大约 6 个小时，阵列才能重建。使用监控状态cat /proc/mdstat。
为重建成功而欢欣鼓舞。希望如此。

Answer 1

我成功重建了阵列，但我仍然不确定是什么错误导致相关驱动器出现故障。smartctl -x尽管总体状态为PASSED，但磁盘上仍记录了一些通用的 URE，这似乎是个假朋友。

如果它对任何人有帮助，我遵循了以下步骤：

运行mdadm --manage /dev/md0 --remove /dev/sdm，但正如我所想的那样，这没有任何效果，因为磁盘已被自动移除。同样mdadm --manage /dev/md0 --fail /dev/sdm没有任何效果，因为磁盘处于移除状态。
注释掉我的数组以/etc/fstab防止它在启动时被安装。
关闭系统。
从驱动器托架中取出故障驱动器，并用新驱动器替换。
重新启动，验证 HBA 在启动时可以看到所有 16 个设备。
使用检查新驱动器（也分配了/dev/sdm）上是否存在分区表parted /dev/sdm print。我使用的 WD 驱动器确实出厂时附带了 GPT 分区表，它显示在这里。我们需要摆脱它。
使用销毁新磁盘上的分区表sgdisk --zap /dev/sdm。这是使用整个磁盘成员时的最佳实践。如果您使用分区作为阵列成员，则可能需要在此步骤中将分区表从工作驱动器复制到新驱动器 - 详细信息可参见这里。无论哪种方式，请确保选择正确的磁盘并按正确的顺序！
使用以下方法添加新磁盘mdadm --manage /dev/md0 --add /dev/sdm
等待（就我而言）大约 6 个小时，阵列才能重建。使用监控状态cat /proc/mdstat。
为重建成功而欢欣鼓舞。希望如此。

相关内容