我有一对 HP DL320e 服务器,在软件 raid 1 阵列中配置了 2 个 WD Red 6TB 硬盘。
# cat /proc/mdstat
Personalities : [raid1]
md126 : active raid1 sda3[2] sdb3[1]
5859876672 blocks super 1.2 [2/2] [UU]
bitmap: 0/44 pages [0KB], 65536KB chunk
md127 : active raid1 sda2[3] sdb2[2]
511936 blocks super 1.0 [2/2] [UU]
unused devices: <none>
这些机器已经安装了大约 6 周,并且通常运行良好,但是有几次,一对驱动器中的一个驱动器从配置中消失,系统报告该驱动器已被移除:
# mdadm --detail /dev/md126
/dev/md126:
Version : 1.0
Creation Time : Thu Feb 12 12:16:13 2015
Raid Level : raid1
Array Size : 511936 (500.02 MiB 524.22 MB)
Used Dev Size : 511936 (500.02 MiB 524.22 MB)
Raid Devices : 2
Total Devices : 1
Persistence : Superblock is persistent
Update Time : Mon Apr 20 15:39:02 2015
State : clean, degraded
Active Devices : 1
Working Devices : 1
Failed Devices : 0
Spare Devices : 0
Name : localhost:boot
UUID : 60a3e4f7:793fbc3d:3f409985:5f619dea
Events : 139
Number Major Minor RaidDevice State
2 8 2 0 active sync /dev/sda2
2 0 0 2 removed
/var/log/messages 报告驱动器无法打开
Apr 20 14:47:00 1 smartd[983]: Device: /dev/sda [SAT], open() failed: No such device
两个驱动器看起来都正常并且正在旋转。这些机器组成了生产对,所以我没有做太多实验。第一次发生这种情况时,我关闭了服务器并重新启动它,故障驱动器仍然故障,所以我再次关闭它,移除看起来正常的驱动器,重新插入并重新启动,驱动器看起来正常,之后
mdadm --manage /dev/md126 --add /dev/sda2
... 并且对于其他文件系统的类似命令,raid 阵列重新同步并且一切恢复正常。
一台机器上的两个驱动器都发生了同样的事情,今天另一台服务器的其中一个驱动器也发生了同样的事情。今天我关闭了服务器并拔掉了电源线,以强制进行包括 iLo 在内的完全冷启动,我没有移除“故障”驱动器,当机器启动时,设备可见,并且添加丢失驱动器的 mdadm 命令像以前一样工作。
我在消息日志或其他任何地方都看不到任何其他信息。今天的故障发生在我手动执行 yum 更新并重新启动后系统重新启动时,之前的故障发生在重新启动之后,而当时我不在办公室,无法解释发生故障的原因。
在故障状态下,RAID 阵列以降级模式运行,系统正常运行,因此我没有遭受服务中断,但发生这种情况显然令人担忧。
我不熟悉 iLO,但在 iLO 日志中我看不到任何内容,除了一条注释,指出在发生无法解释的重启时电源已循环。
我正在运行 Centos 7、4GB RAM、Xenon 4 核 3.1GHz 和 2 个 6TB 磁盘。所有 yum 更新均已应用。
有人在 DL320e 上见过类似的东西吗?