构建软件 RAID5 时出现 HDD 错误

构建软件 RAID5 时出现 HDD 错误

我想用 CentOS 6 或 Scientific Linux 6 构建我的新 NAS,但我无法构建 RAID5。我使用 mdadm 创建了一个新的 RAID 设备,但经过几个小时的工作,mdadm 将一个或两个硬盘标记为故障并降级了阵列。每次它都会将不同的硬盘标记为故障。我在 Fedora 13、CentOS 5.5 和 Scientific Linux 6.0 上尝试过。
所有组件都是新的,SMART 值没有显示错误。

... after many errors ...
ata6.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6 frozen
ata6.00: failed command: READ DMA EXT
ata6.00: cmd 25/00:00:ff:2d:5c/00:01:90:00:00/e0 tag 0 dma 131072 in
        res 40/00:14:e7:45:46/00:00:90:00:00/40 Emask 0x4 (timeout)
ata6.00: status: { DRDY }
ata6: hard resetting link
ata6: SATA link up 1.5 Gbps (SStatus 113 SControl 310)
ata6.00: configured for UDMA/133
sd 6:0:0:0: [sdd] Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
sd 6:0:0:0: [sdd] Sense Key : Aborted Command [current] [descriptor]
Descriptor sense data with sense descriptors (in hex):
       72 0b 00 00 00 00 00 0c 00 0a 80 00 00 00 00 00 
       00 00 00 e6 
sd 6:0:0:0: [sdd] Add. Sense: No additional sense information
sd 6:0:0:0: [sdd] CDB: Read(10): 28 00 90 5c 2d ff 00 01 00 00
end_request: I/O error, dev sdd, sector 2421960191
raid5:md0: read error not correctable (sector 2421960128 on sdd1).
raid5: Disk failure on sdd1, disabling device.
raid5: Operation continuing on 4 devices.
raid5:md0: read error not correctable (sector 2421960136 on sdd1).
...

什么可能导致这些问题?


我的系统:
主板:Intel DH57JG
CPU:Intel Core i3-540
内存:Corsair XMS3 2GB DDR3
电源:Seasonic S12II-330Bronze
SATA 控制器:板载 4 个,带 JMB363 芯片组的 2 个 PCIe 控制器
硬盘:6 个 Western Digital WD20EARS

上次尝试的日志:
缩短日志完整日志

答案1

WD20EARS 是 Caviar Green 型号,对吗?

我想知道它们是否“变绿”并在一段时间不活动后停止运行,导致 mdadm 认为它们已经死机。这可能也解释了不同驱动器掉线的原因。

我知道有些 WD 硬盘在 RAID 阵列中存在问题,因为固件会进行一些错误检查,但响应速度不够快,因此主机认为它已发生故障。我只听说过硬件 RAID 阵列中存在这种情况,但它也可能适用于这种情况。

总而言之,执行任何类型的 RAID 的消费者磁盘永远不会是完美的,并且您的里程可能会有所不同。

答案2

(我和上面的 Dani31 是同一个人,但我丢失了我的用户 [在 Live CD 上写了条目])

由于 Ben Pilbrow 的回答,我阅读了许多有关 WD20EARS 的内容并做了一些更改:

  • 我使用 wdidle3 将加载周期时间设置为 300 秒
  • 并使用以下命令正确格式化磁盘(使用 4K 扇区)fdisk -c -u /dev/sdX

经过这些更改后,构建过程速度提高了一倍,但再次失败。这次是同一个驱动器导致中止(我认为是驱动器名称不同,因为我使用了不同的发行版)。

我查看了内核日志,发现许多读取错误,因此我开始badblocks使用该驱动器,并且内核日志中出现了相同的错误。

我下载了 Western Digital 的 Data Lifeguard 诊断工具,并对驱动器进行了扩展测试。结果是“发现太多错误 - 更换驱动器”。

我认为在我拿到新驱动器后问题就会解决。
谢谢你的帮助!

相关内容