重建 Raid 阵列

Question 1

那个驱动器 sdb 看起来离故障不远了。虽然它还没有正式失败了，它已经没有多少生命力了。

195 Hardware_ECC_Recovered  0x001a   032   026   000    Old_age   Always       -       38042073

这次活动有大量可恢复读取错误。这意味着它成功地使用错误校正重建了数据。然而，它已经到了很可能很快就会出现不可恢复读取错误，无法成功重建磁盘损坏或故障部分的数据。此时您无能为力，只能更换驱动器。

如果您的重建过程一直在同一位置停止，则很有可能驱动器已经在盘片上的该位置发生故障，但未报告该情况。如果桌面级驱动器第一次发生故障，它们将停止并尝试几分钟甚至几小时来读取特定扇区，从而导致此类情况。而您的这个“服务器”中可能就有这样的驱动器……

此时您应该主动更换该驱动器，因为它很快就会出现故障（如果还没有的话）。

Answer

那个驱动器 sdb 看起来离故障不远了。虽然它还没有正式失败了，它已经没有多少生命力了。

195 Hardware_ECC_Recovered  0x001a   032   026   000    Old_age   Always       -       38042073

这次活动有大量可恢复读取错误。这意味着它成功地使用错误校正重建了数据。然而，它已经到了很可能很快就会出现不可恢复读取错误，无法成功重建磁盘损坏或故障部分的数据。此时您无能为力，只能更换驱动器。

如果您的重建过程一直在同一位置停止，则很有可能驱动器已经在盘片上的该位置发生故障，但未报告该情况。如果桌面级驱动器第一次发生故障，它们将停止并尝试几分钟甚至几小时来读取特定扇区，从而导致此类情况。而您的这个“服务器”中可能就有这样的驱动器……

此时您应该主动更换该驱动器，因为它很快就会出现故障（如果还没有的话）。

Question 2

看起来只有一半的镜子丢失了。所以应该没有问题。但问题是为什么子镜像 (sdbX) 丢失了？在重新安装镜子之前检查一下它们可能是个好主意。

mdadm --manage /dev/md1 --add /dev/sdb2
mdadm --manage /dev/md2 --add /dev/sdb3
mdadm --manage /dev/md3 --add /dev/sdb4

Answer

看起来只有一半的镜子丢失了。所以应该没有问题。但问题是为什么子镜像 (sdbX) 丢失了？在重新安装镜子之前检查一下它们可能是个好主意。

mdadm --manage /dev/md1 --add /dev/sdb2
mdadm --manage /dev/md2 --add /dev/sdb3
mdadm --manage /dev/md3 --add /dev/sdb4

Question 3

当您使用 RAID1 镜像两个卷时，每个副本都有一个“活动计数器”，当副本内部发生变化时，该计数器会更新：这样，系统能够在发生崩溃或其他事件导致其中一个卷崩溃的情况下了解哪一个卷是最新的。

重新同步意味着最新的副本将覆盖“失去同步”的旧副本。因此，离线硬盘或有缺陷的硬盘将强制阵列进入“降级模式”（只有一个副本在线，无冗余）。

您可以从降级模式中恢复，强制重新同步，以便将唯一的活动分区克隆到您已重新开始工作的分区，或者更换有缺陷的磁盘并为阵列提供新的空间，该阵列将以与之前描述的相同的方式进行克隆。

这两种方法都可以保持你的数据完好无损，除非你对配置或仍然存在的“好”分区做了不当的事情=)

我认为在你想摆弄它们之前最好先备份你的 raid 配置=)

至于 SMART 值，除了在其他回复中讨论的 Hardware_ECC_Recovered 之外，它们对我来说似乎还不错。

无论如何，避免考虑您在那里看到的单个值，还要检查它变化的速度。我曾经在驱动器上看到过奇怪的值，但它们并没有变得更糟，它们很稳定。另一方面，良好的 SMART 值并不能证明磁盘是完美的：在我看来，它们可以很好地检查由于使用/老化而导致的磁盘磨损，但它们几乎无法防止突然故障（例如由机械应力、过热等引起的故障 - 想想服务器机房中发生故障的冷却器......）

祝你好運！=)

Answer