Centos 软件 raid 1 阵列中的一个驱动器不断消失

2024-5-30 • tag-icon

我有一对 HP DL320e 服务器，在软件 raid 1 阵列中配置了 2 个 WD Red 6TB 硬盘。

# cat /proc/mdstat
Personalities : [raid1] 
md126 : active raid1 sda3[2] sdb3[1]
      5859876672 blocks super 1.2 [2/2] [UU]
      bitmap: 0/44 pages [0KB], 65536KB chunk

md127 : active raid1 sda2[3] sdb2[2]
      511936 blocks super 1.0 [2/2] [UU]

unused devices: <none>

这些机器已经安装了大约 6 周，并且通常运行良好，但是有几次，一对驱动器中的一个驱动器从配置中消失，系统报告该驱动器已被移除：

# mdadm --detail /dev/md126
/dev/md126:
        Version : 1.0
  Creation Time : Thu Feb 12 12:16:13 2015
     Raid Level : raid1
     Array Size : 511936 (500.02 MiB 524.22 MB)
  Used Dev Size : 511936 (500.02 MiB 524.22 MB)
   Raid Devices : 2
  Total Devices : 1
    Persistence : Superblock is persistent

    Update Time : Mon Apr 20 15:39:02 2015
          State : clean, degraded 
 Active Devices : 1
Working Devices : 1
 Failed Devices : 0
  Spare Devices : 0

           Name : localhost:boot
           UUID : 60a3e4f7:793fbc3d:3f409985:5f619dea
         Events : 139

    Number   Major   Minor   RaidDevice State
       2       8        2        0      active sync   /dev/sda2
       2       0        0        2      removed

/var/log/messages 报告驱动器无法打开

Apr 20 14:47:00 1 smartd[983]: Device: /dev/sda [SAT], open() failed: No such device

两个驱动器看起来都正常并且正在旋转。这些机器组成了生产对，所以我没有做太多实验。第一次发生这种情况时，我关闭了服务器并重新启动它，故障驱动器仍然故障，所以我再次关闭它，移除看起来正常的驱动器，重新插入并重新启动，驱动器看起来正常，之后

mdadm --manage /dev/md126 --add /dev/sda2

... 并且对于其他文件系统的类似命令，raid 阵列重新同步并且一切恢复正常。

一台机器上的两个驱动器都发生了同样的事情，今天另一台服务器的其中一个驱动器也发生了同样的事情。今天我关闭了服务器并拔掉了电源线，以强制进行包括 iLo 在内的完全冷启动，我没有移除“故障”驱动器，当机器启动时，设备可见，并且添加丢失驱动器的 mdadm 命令像以前一样工作。

我在消息日志或其他任何地方都看不到任何其他信息。今天的故障发生在我手动执行 yum 更新并重新启动后系统重新启动时，之前的故障发生在重新启动之后，而当时我不在办公室，无法解释发生故障的原因。

在故障状态下，RAID 阵列以降级模式运行，系统正常运行，因此我没有遭受服务中断，但发生这种情况显然令人担忧。

我不熟悉 iLO，但在 iLO 日志中我看不到任何内容，除了一条注释，指出在发生无法解释的重启时电源已循环。

我正在运行 Centos 7、4GB RAM、Xenon 4 核 3.1GHz 和 2 个 6TB 磁盘。所有 yum 更新均已应用。

有人在 DL320e 上见过类似的东西吗？

相关内容