我设置了一个基于 Ubuntu 11.04 的小型 RAID 服务器机器,刚刚收到了这封电子邮件。我该如何验证或检查?
理查德
这是由 godzilla 上运行的 mdadm 自动生成的邮件消息
在 md 设备 /dev/md/0 上检测到失败事件。
它可能与组件设备 /dev/sda1 相关。
您忠实的,等等。
PS /proc/mdstat 文件当前包含以下内容:
个性:[线性] [多路径] [raid0] [raid1] [raid6] [raid5] [raid4] [raid10] md0:活动 raid5 sda10 sdb1[1] sdd1[3] sdc1[2] 2927135232 块超级 1.2 级别 5,512k 块,算法 2 [4/3] [_UUU] [>....................] 检查 = 2.2% (21655188/975711744) 完成=4419.8 分钟速度=3597K/秒
&> 猫/proc/mdstat个性:[线性] [多路径] [raid0] [raid1] [raid6] [raid5] [raid4] [raid10] md0:活动 raid5 sda10 sdb1[1] sdd1[3] sdc1[2] 2927135232 块超级 1.2 级别 5,512k 块,算法 2 [4/3] [_UUU]
未使用的设备:
猫/proc/mdstat个性:[线性] [多路径] [raid0] [raid1] [raid6] [raid5] [raid4] [raid10] md0:活动 raid5sda1[0]Fsdb1[1]sdd1[3] sdc1[2] 2927135232 块超级 1.2 级别 5,512k 块,算法 2 [4/3] [_UUU]
未使用的设备:
留言 [775549.274966] md/raid:md0: sda1 上发生磁盘故障,正在禁用设备。[775549.274967] md/raid:md0:操作在 3 个设备上继续。[775549.280021] md/raid:md0:读取错误无法更正(sda1 上的扇区 43310408
)。[775549.280028] md/raid:md0:读取错误无法更正(sda1 上的扇区 43310416
)。[775549.280031] md/raid:md0:读取错误无法更正(sda1 上的扇区 43310424)
。 [775549.280035] md/raid:md0:读取错误无法纠正(sda1 上的扇区 43310432
)。[775549.280039] md/raid:md0:读取错误无法纠正(sda1 上的扇区 43310440
)。[775549.280043] md/raid:md0:读取错误无法纠正(sda1 上的扇区 43310448
)。[775549.280047] md/raid:md0:读取错误无法纠正(sda1 上的扇区 43310456
)。[775549.280051] md/raid:md0:读取错误无法纠正(sda1 上的扇区 43310464
)。 [775549.280055] md/raid:md0: 读取错误无法纠正(sda1 上的扇区 43310472
)。 [775549.280226] ata7:EH 完成 [775549.316567] ata7.00:异常 Emask 0x0 SAct 0x0 SErr 0x300000 操作 0x6 [775549.319133] ata7.00:BMDMA 状态 0x45 [775549.321658] ata7:SError:{Dispar BadCRC} [775549.324237] ata7.00:失败命令:READ DMA EXT [775549.326754] ata7.00:cmd 25/00:f8:28:ed:94/00:03:02:00:00/e0 标签 0 dma 52019
2 in [775549.326757] res 51/84:48:78:7f:2e/84:00:03:00:00/e0 Emask 0x10 (ATA
总线错误) [775549.331806] ata7.00:状态:{DRDY ERR } [775549.334350] ata7.00:错误:{ICRC ABRT } [775549.336890] ata7:硬重置链接 [775549.336895] ata7:nv:跳过占用端口上的硬重置 [775549.340260] md:md0:数据检查完成。 [775549.804062] ata7:SATA 链接 3.0 Gbps(SStatus 123 SControl 300) [775549.844352] ata7.00:配置为 UDMA/33 [775549.844390] ata7:EH 完成 [775549.936450] RAID conf 打印输出: [775549.936456] --- 级别:5 rd:4 wd:3 [775549.936460] 磁盘 0,o:0,dev:sda1 [775549.936463] 磁盘 1,o:1,dev:sdb1 [775549.936465] 磁盘 2,o:1,dev:sdc1 [775549.936507] 磁盘3,o:1,dev:sdd1 [775549.936557] RAID conf 打印输出: [775549.936559] --- 级别:5 rd:4 wd:3 [775549.936562] 磁盘 1,o:1,dev:sdb1 [775549.936564] 磁盘 2,o:1,dev:sdc1 [775549.936567] 磁盘 3,o:1,dev:sdd1
sudo mdadm --detail /dev/md0
/dev/md0:版本:1.2 创建时间:2005 年 1 月 1 日星期六 14:43:44 突袭级别:raid5 阵列大小:2927135232(2791.53 GiB 2997.39 GB)已用设备大小:975711744(930.51 GiB 999.13 GB)突袭设备:4 总设备数:4 持久性:超级块是持久的
Update Time : Sun Feb 5 19:17:41 2012 State : clean, degraded Active Devices : 3 Working Devices : 3 Failed Devices : 1 Spare Devices : 0 Layout : left-symmetric Chunk Size : 512K Name : godzilla:0 (local to host godzilla) UUID : 7c2be5e4:25e338e5:b575b8cd:83896caf Events : 657 Number Major Minor RaidDevice State 0 0 0 0 removed 1 8 17 1 active sync /dev/sdb1 2 8 33 2 active sync /dev/sdc1 3 8 49 3 active sync /dev/sdd1 0 8 1 - faulty spare /dev/sda1
答案1
我会查看“dmesg”的输出以及文件 /var/log/syslog。其中可能包含有关 /dev/sda1 问题的提示。
硬盘可能已崩溃,但也可能只是电缆没有插好(SATA 电缆……不是那么好)。查看设备是否仍在线,也许可以使用其他名称(如 /dev/sde1 或系统中的下一个可用名称)。如上所述,我还会检查 dmesg/syslog、SMART。也许电缆只是必须正确插入或必须更换。在大多数情况下,您可以将磁盘重新添加到 RAID 阵列 - 我只会在问题确实与电缆断裂或类似问题有关时使用这些命令,即没有“真正的”硬盘故障。
mdadm --fail /dev/mdX /dev/sdX # set the disk faulty
mdadm -r /dev/mdX /dev/sdX # remove faulty disk
mdadm --re-add /dev/mdX /dev/sdX # re-add disk
免责声明:不保证,您应该有备份,这将重建您的 RAID 阵列 - 那时没有冗余等等。