帮助恢复 raid5 阵列

Question 1

你说：

重建过程中大约 60% 阵列中的其他驱动器之一脱落

这是 RAID-5 的一个已知风险，也是当今 RAID-5 被认为不安全使用的原因之一。如果 RAID-5 阵列中的两个驱动器同时发生故障，则数据将无法恢复。不幸的是，在一个驱动器发生故障的情况下重建阵列可能会对其他驱动器造成足够的压力，从而大大增加重建过程中另一个驱动器发生故障的可能性。重建时间越长（即驱动器越大，并且它们执行其他实际工作越忙），发生这种情况的可能性就越大。

如果 RAID 阵列已投入使用多年并且驱动器已接近预期使用寿命，则尤其如此。或者，如果阵列中的所有驱动器都来自同一生产运行，并且具有类似的缺陷（如果是“不良批次”）或类似的预期寿命。

由于数据在 4 磁盘 RAID-5 阵列中跨驱动器进行条带化的方式（即 3 个磁盘用于条带化数据，1 个磁盘用于奇偶校验），当两个驱动器发生故障时，每个文件至少有三分之一会丢失。这与 RAID-0 条带化在一个或多个驱动器发生故障时发生的情况类似 - 条带到故障驱动器上的文件部分消失了。

RAID-6 允许两个驱动器在所有数据丢失之前发生故障，从而稍微改进了这一点，但如果三个驱动器同时发生故障，也会遇到同样的问题。

RAID-1 更安全，因为如果一个驱动器出现故障，您可以从另一个驱动器（如果镜像到多个驱动器则从其他驱动器）检索数据。如果镜像集中的所有驱动器都出现故障，您将失去一切。

RAID-10 与 RAID-1 类似。如果镜像集中的所有驱动器同时死亡，它仍然容易受到攻击。 RAID-10 可以承受两个驱动器故障，但仅有的如果发生故障的驱动器不在同一镜像集中。例如，您有驱动器 a、b、c、d 和两个镜像对（a+b 和 c+d），然后是来自不同对的两个驱动器的任意组合（即 a+c、a+d、b+c 或b+d) 可能会失败而不会丢失您的数据，但如果 a+b 或 c+d 失败，那么您的数据就会丢失。

对于 RAID-1 和 RAID-10，可以通过在每个镜像集中包含更多驱动器来降低风险。例如，6 驱动器 RAID-10 可以配置为 a+b、c+d、e+f（三个镜像对，总容量 = 驱动器数量/2）或 a+b+c 和 d+e+f（两个镜像三元组，总容量 = 驱动器数量 / 3)

因此，所有 RAID 级别都有可能导致灾难性数据丢失的故障模式。

所有这一切要记住的关键是：

RAID 不能替代常规备份

Answer

你说：

重建过程中大约 60% 阵列中的其他驱动器之一脱落

这是 RAID-5 的一个已知风险，也是当今 RAID-5 被认为不安全使用的原因之一。如果 RAID-5 阵列中的两个驱动器同时发生故障，则数据将无法恢复。不幸的是，在一个驱动器发生故障的情况下重建阵列可能会对其他驱动器造成足够的压力，从而大大增加重建过程中另一个驱动器发生故障的可能性。重建时间越长（即驱动器越大，并且它们执行其他实际工作越忙），发生这种情况的可能性就越大。

如果 RAID 阵列已投入使用多年并且驱动器已接近预期使用寿命，则尤其如此。或者，如果阵列中的所有驱动器都来自同一生产运行，并且具有类似的缺陷（如果是“不良批次”）或类似的预期寿命。

由于数据在 4 磁盘 RAID-5 阵列中跨驱动器进行条带化的方式（即 3 个磁盘用于条带化数据，1 个磁盘用于奇偶校验），当两个驱动器发生故障时，每个文件至少有三分之一会丢失。这与 RAID-0 条带化在一个或多个驱动器发生故障时发生的情况类似 - 条带到故障驱动器上的文件部分消失了。

RAID-6 允许两个驱动器在所有数据丢失之前发生故障，从而稍微改进了这一点，但如果三个驱动器同时发生故障，也会遇到同样的问题。

RAID-1 更安全，因为如果一个驱动器出现故障，您可以从另一个驱动器（如果镜像到多个驱动器则从其他驱动器）检索数据。如果镜像集中的所有驱动器都出现故障，您将失去一切。

RAID-10 与 RAID-1 类似。如果镜像集中的所有驱动器同时死亡，它仍然容易受到攻击。 RAID-10 可以承受两个驱动器故障，但仅有的如果发生故障的驱动器不在同一镜像集中。例如，您有驱动器 a、b、c、d 和两个镜像对（a+b 和 c+d），然后是来自不同对的两个驱动器的任意组合（即 a+c、a+d、b+c 或b+d) 可能会失败而不会丢失您的数据，但如果 a+b 或 c+d 失败，那么您的数据就会丢失。

对于 RAID-1 和 RAID-10，可以通过在每个镜像集中包含更多驱动器来降低风险。例如，6 驱动器 RAID-10 可以配置为 a+b、c+d、e+f（三个镜像对，总容量 = 驱动器数量/2）或 a+b+c 和 d+e+f（两个镜像三元组，总容量 = 驱动器数量 / 3)

因此，所有 RAID 级别都有可能导致灾难性数据丢失的故障模式。

所有这一切要记住的关键是：

RAID 不能替代常规备份

Question 2

所以我尝试了几件事。首先，我今天早上重新启动机器后停止了突袭：

jake@ubuntu-box:~$ sudo mdadm -S /dev/md1
mdadm: stopped /dev/md1

然后我尝试使用数组的 uuid 进行组装：

jake@ubuntu-box:~$ sudo mdadm --assemble /dev/md1 --
uuid=e7ab07c3:b9ffa9ae:377e3cd3:a8ece374
mdadm: /dev/md1 assembled from 1 drive - not enough to start the array.

好吧，这正是我所期望的。所以让我们尝试强制它：

jake@ubuntu-box:~$ sudo mdadm --assemble /dev/md1 --force --
uuid=e7ab07c3:b9ffa9ae:377e3cd3:a8ece374
mdadm: forcing event count in /dev/sdb2(1) from 238868 upto 239374
mdadm: forcing event count in /dev/sda2(0) from 20364 upto 239374
mdadm: /dev/md1 assembled from 3 drives - not enough to start the array.

嗯..那个应该已经工作了。让我们尝试通过调用 raid 的各个分区来手动重新组装：

jake@ubuntu-box:~$ sudo mdadm --assemble /dev/md1 /dev/sda2 /dev/sdb2 
/dev/sdc2 /dev/sdd2 --force
mdadm: /dev/md1 has been started with 3 drives (out of 4).

答对了！看起来是从 4 个驱动器中的 3 个开始的。足够好了，这意味着我可以访问我的数据！让我们检查一下细节，只是为了咯咯笑：

jake@ubuntu-box:~$ sudo mdadm --detail /dev/md1/dev/md1:
        Version : 0.90
  Creation Time : Thu Aug 18 14:30:36 2011
     Raid Level : raid5
     Array Size : 2924400000 (2788.93 GiB 2994.59 GB)
  Used Dev Size : 974800000 (929.64 GiB 998.20 GB)
   Raid Devices : 4
  Total Devices : 3
Preferred Minor : 1
    Persistence : Superblock is persistent

    Update Time : Tue Mar 13 14:00:33 2018
          State : clean, degraded 
 Active Devices : 3
Working Devices : 3
 Failed Devices : 0
  Spare Devices : 0

         Layout : left-symmetric
     Chunk Size : 64K

           UUID : e7ab07c3:b9ffa9ae:377e3cd3:a8ece374
         Events : 0.239374

    Number   Major   Minor   RaidDevice State
       0       8        2        0      active sync   /dev/sda2
       1       8       18        1      active sync   /dev/sdb2
       2       8       34        2      active sync   /dev/sdc2
       6       0        0        6      removed

我们说话时我正在复制数据。所以，数据并不是无法恢复的——只是需要知道正确的命令来强制突袭重新集结。

Answer