Linux 软件 RAID：磁盘是否有故障？

Question 1

您的mdstat文件说明了一切。

[3/2] [_UU]意味着虽然定义了 3 个物理卷，但目前只有 2 个正在使用。同样，也_UU表示同样的意思。

要获得有关 raid 设备的更多详细信息（在转到物理设备之前），您可以运行（以 root 身份）

mdadm --detail --verbose /dev/md0
mdadm --detail --verbose /dev/md1
mdadm --detail --verbose /dev/md2

在我的系统上（使用 raid6），我模拟了故障，这是一个示例输出：

dev/md0:
        Version : 1.2
  Creation Time : Thu Sep 29 09:51:41 2016
     Raid Level : raid6
     Array Size : 16764928 (15.99 GiB 17.17 GB)
  Used Dev Size : 8382464 (7.99 GiB 8.58 GB)
   Raid Devices : 4
  Total Devices : 5
    Persistence : Superblock is persistent

    Update Time : Thu Oct 11 13:06:50 2016
          State : clean   <<== CLEAN!
 Active Devices : 4
Working Devices : 4
 Failed Devices : 1
  Spare Devices : 0

         Layout : left-symmetric
     Chunk Size : 512K

           Name : ubuntu:0  (local to host ubuntu)
           UUID : 3837ba75:eaecb6be:8ceb4539:e5d69538
         Events : 43

    Number   Major   Minor   RaidDevice State
       4       8       65        0      active sync   /dev/sde1  <<== NEW ENTRY
       1       8       17        1      active sync   /dev/sdb1
       2       8       33        2      active sync   /dev/sdc1
       3       8       49        3      active sync   /dev/sdd1

       0       8        1        -      faulty   /dev/sda1  <<== SW-REPLACED

Answer

您的mdstat文件说明了一切。

[3/2] [_UU]意味着虽然定义了 3 个物理卷，但目前只有 2 个正在使用。同样，也_UU表示同样的意思。

要获得有关 raid 设备的更多详细信息（在转到物理设备之前），您可以运行（以 root 身份）

mdadm --detail --verbose /dev/md0
mdadm --detail --verbose /dev/md1
mdadm --detail --verbose /dev/md2

在我的系统上（使用 raid6），我模拟了故障，这是一个示例输出：

dev/md0:
        Version : 1.2
  Creation Time : Thu Sep 29 09:51:41 2016
     Raid Level : raid6
     Array Size : 16764928 (15.99 GiB 17.17 GB)
  Used Dev Size : 8382464 (7.99 GiB 8.58 GB)
   Raid Devices : 4
  Total Devices : 5
    Persistence : Superblock is persistent

    Update Time : Thu Oct 11 13:06:50 2016
          State : clean   <<== CLEAN!
 Active Devices : 4
Working Devices : 4
 Failed Devices : 1
  Spare Devices : 0

         Layout : left-symmetric
     Chunk Size : 512K

           Name : ubuntu:0  (local to host ubuntu)
           UUID : 3837ba75:eaecb6be:8ceb4539:e5d69538
         Events : 43

    Number   Major   Minor   RaidDevice State
       4       8       65        0      active sync   /dev/sde1  <<== NEW ENTRY
       1       8       17        1      active sync   /dev/sdb1
       2       8       33        2      active sync   /dev/sdc1
       3       8       49        3      active sync   /dev/sdd1

       0       8        1        -      faulty   /dev/sda1  <<== SW-REPLACED

Question 2

md1 和 md2 是 raid5 阵列，由于 /dev/sdb 上各自的分区发生故障或标记为故障而降级。在阵列本身上运行 mdadm --examine 以了解更多详细信息（madam --examine /dev/md1）。

如果 /dev/sdb 一切正常，请将分区重新添加到阵列。从 /etc/mdadm.conf 或阵列上的 --examine 输出中获取正确的分区号。

mdadm --re-add /dev/sdb[?] /dev/md1

Answer

md1 和 md2 是 raid5 阵列，由于 /dev/sdb 上各自的分区发生故障或标记为故障而降级。在阵列本身上运行 mdadm --examine 以了解更多详细信息（madam --examine /dev/md1）。

如果 /dev/sdb 一切正常，请将分区重新添加到阵列。从 /etc/mdadm.conf 或阵列上的 --examine 输出中获取正确的分区号。

mdadm --re-add /dev/sdb[?] /dev/md1

Question 3

是的，/dev/sdb1和分别/dev/sdb2被踢出/dev/md0和/dev/md1。您可以grep在系统日志（/var/log/messages*在基于 RHEL/CentOS/etc 的发行版上，/var/log/syslog*在基于 Debian/Ubuntu 的发行版上）上执行操作，以查找导致此问题的原因（如果这些日志仍保留）。

要立即修复此问题，我建议您首先对 /dev/sdb 执行 SMART 测试。您可以使用来完成此操作smartctl -t long /dev/sdb（这是一种非破坏性测试），然后您可以使用检查其进度和结果smartctl -a /dev/sdb。

如果之后磁盘看起来一切正常，您可以将分区重新添加到 RAID 阵列，这可能会导致重建（并且很可能会），但这仍然是非破坏性的：

mdadm /dev/md0 --add /dev/sdb1
mdadm /dev/md1 --add /dev/sdb2

您可以通过发出watch cat /proc/mdstat命令来观察重建进度（该命令将在屏幕上每 2 秒打印一次 /proc/mdstat）。

如果您之前没有写意图位图，我强烈建议在重建后添加它：

mdadm -G /dev/mdX -b internal

将 X 替换为您的阵列编号。对每个活动阵列执行此操作。它不会占用太多空间，而且也是非破坏性的。但有时它有助于数据一致性和重建速度。

Answer