mdadm——软件 RAID

mdadm——软件 RAID

我设置了一个基于 Ubuntu 11.04 的小型 RAID 服务器机器,刚刚收到了这封电子邮件。我该如何验证或检查?

理查德

这是由 godzilla 上运行的 mdadm 自动生成的邮件消息

在 md 设备 /dev/md/0 上检测到失败事件。

它可能与组件设备 /dev/sda1 相关。

您忠实的,等等。

PS /proc/mdstat 文件当前包含以下内容:

个性:[线性] [多路径] [raid0] [raid1] [raid6] [raid5] [raid4] [raid10] md0:活动 raid5 sda10 sdb1[1] sdd1[3] sdc1[2] 2927135232 块超级 1.2 级别 5,512k 块,算法 2 [4/3] [_UUU] [>....................] 检查 = 2.2% (21655188/975711744) 完成=4419.8 分钟速度=3597K/秒

&> 猫/proc/mdstat个性:[线性] [多路径] [raid0] [raid1] [raid6] [raid5] [raid4] [raid10] md0:活动 raid5 sda10 sdb1[1] sdd1[3] sdc1[2] 2927135232 块超级 1.2 级别 5,512k 块,算法 2 [4/3] [_UUU]

未使用的设备:

猫/proc/mdstat个性:[线性] [多路径] [raid0] [raid1] [raid6] [raid5] [raid4] [raid10] md0:活动 raid5sda1[0]Fsdb1[1]sdd1[3] sdc1[2] 2927135232 块超级 1.2 级别 5,512k 块,算法 2 [4/3] [_UUU]

未使用的设备:

留言 [775549.274966] md/raid:md0: sda1 上发生磁盘故障,正在禁用设备。[775549.274967] md/raid:md0:操作在 3 个设备上继续。[775549.280021] md/raid:md0:读取错误无法更正(sda1 上的扇区 43310408
)。[775549.280028] md/raid:md0:读取错误无法更正(sda1 上的扇区 43310416
)。[775549.280031] md/raid:md0:读取错误无法更正(sda1 上的扇区 43310424)
。 [775549.280035] md/raid:md0:读取错误无法纠正(sda1 上的扇区 43310432
)。[775549.280039] md/raid:md0:读取错误无法纠正(sda1 上的扇区 43310440
)。[775549.280043] md/raid:md0:读取错误无法纠正(sda1 上的扇区 43310448
)。[775549.280047] md/raid:md0:读取错误无法纠正(sda1 上的扇区 43310456
)。[775549.280051] md/raid:md0:读取错误无法纠正(sda1 上的扇区 43310464
)。 [775549.280055] md/raid:md0: 读取错误无法纠正(sda1 上的扇区 43310472
)。 [775549.280226] ata7:EH 完成 [775549.316567] ata7.00:异常 Emask 0x0 SAct 0x0 SErr 0x300000 操作 0x6 [775549.319133] ata7.00:BMDMA 状态 0x45 [775549.321658] ata7:SError:{Dispar BadCRC} [775549.324237] ata7.00:失败命令:READ DMA EXT [775549.326754] ata7.00:cmd 25/00:f8:28:ed:94/00:03:02:00:00/e0 标签 0 dma 52019
2 in [775549.326757] res 51/84:48:78:7f:2e/84:00:03:00:00/e0 Emask 0x10 (ATA
总线错误) [775549.331806] ata7.00:状态:{DRDY ERR } [775549.334350] ata7.00:错误:{ICRC ABRT } [775549.336890] ata7:硬重置链接 [775549.336895] ata7:nv:跳过占用端口上的硬重置 [775549.340260] md:md0:数据检查完成。 [775549.804062] ata7:SATA 链接 3.0 Gbps(SStatus 123 SControl 300) [775549.844352] ata7.00:配置为 UDMA/33 [775549.844390] ata7:EH 完成 [775549.936450] RAID conf 打印输出: [775549.936456] --- 级别:5 rd:4 wd:3 [775549.936460] 磁盘 0,o:0,dev:sda1 [775549.936463] 磁盘 1,o:1,dev:sdb1 [775549.936465] 磁盘 2,o:1,dev:sdc1 [775549.936507] 磁盘3,o:1,dev:sdd1 [775549.936557] RAID conf 打印输出: [775549.936559] --- 级别:5 rd:4 wd:3 [775549.936562] 磁盘 1,o:1,dev:sdb1 [775549.936564] 磁盘 2,o:1,dev:sdc1 [775549.936567] 磁盘 3,o:1,dev:sdd1

sudo mdadm --detail /dev/md0

/dev/md0:版本:1.2 创建时间:2005 年 1 月 1 日星期六 14:43:44 突袭级别:raid5 阵列大小:2927135232(2791.53 GiB 2997.39 GB)已用设备大小:975711744(930.51 GiB 999.13 GB)突袭设备:4 总设备数:4 持久性:超级块是持久的

Update Time : Sun Feb  5 19:17:41 2012
      State : clean, degraded  Active Devices : 3 Working Devices : 3  Failed Devices : 1   Spare Devices : 0

     Layout : left-symmetric
 Chunk Size : 512K

       Name : godzilla:0  (local to host godzilla)
       UUID : 7c2be5e4:25e338e5:b575b8cd:83896caf
     Events : 657

Number   Major   Minor   RaidDevice State
   0       0        0        0      removed
   1       8       17        1      active sync   /dev/sdb1
   2       8       33        2      active sync   /dev/sdc1
   3       8       49        3      active sync   /dev/sdd1

   0       8        1        -      faulty spare   /dev/sda1

答案1

我会查看“dmesg”的输出以及文件 /var/log/syslog。其中可能包含有关 /dev/sda1 问题的提示。

硬盘可能已崩溃,但也可能只是电缆没有插好(SATA 电缆……不是那么好)。查看设备是否仍在线,也许可以使用其他名称(如 /dev/sde1 或系统中的下一个可用名称)。如上所述,我还会检查 dmesg/syslog、SMART。也许电缆只是必须正确插入或必须更换。在大多数情况下,您可以将磁盘重新添加到 RAID 阵列 - 我只会在问题确实与电缆断裂或类似问题有关时使用这些命令,即没有“真正的”硬盘故障。

mdadm --fail /dev/mdX /dev/sdX # set the disk faulty
mdadm -r /dev/mdX /dev/sdX # remove faulty disk
mdadm --re-add /dev/mdX /dev/sdX # re-add disk

免责声明:不保证,您应该有备份,这将重建您的 RAID 阵列 - 那时没有冗余等等。

相关内容