Linux 软件 RAID1 出了问题

Linux 软件 RAID1 出了问题

我有一个软件 RAID1,现在每周 Linux 都会同步我的 raid 卷。

我检查了cat /proc/mdstat

 *Personalities : [raid1] 
       md3 : active raid1 sda5[0] sdb5[1]
             1822445428 blocks super 1.0 [2/2] [UU]

       md1 : active raid1 sdb2[1] sda2[0]
             524276 blocks super 1.0 [2/2] [UU]

       md2 : active raid1 sda3[0] sdb3[1]
             1073741688 blocks super 1.0 [2/2] [UU]
             [============>........]  check = 61.9% (665688192/1073741688) finish=203.8min speed=33367K/sec

       md0 : active raid1 sda1[0] sdb1[1]
             33553336 blocks super 1.0 [2/2] [UU]

       unused devices: <none>*

看上去是正常的,但是我查看了/log/messages,发现:

41/40:80:20:48:c3/00:00:04:00:00/00 Emask 0x409 (media error) <F>
May 26 10:45:45 CentOS-62-64-minimal kernel: ata2.00: status: { DRDY ERR }
May 26 10:45:45 CentOS-62-64-minimal kernel: ata2.00: error: { UNC }
May 26 10:45:45 CentOS-62-64-minimal kernel: ata2.00: configured for UDMA/133
May 26 10:45:45 CentOS-62-64-minimal kernel: ata2: EH complete
May 26 10:45:48 CentOS-62-64-minimal kernel: ata2.00: exception Emask 0x0 SAct 0x1 SErr 0x0 action 0x0
May 26 10:45:48 CentOS-62-64-minimal kernel: ata2.00: irq_stat 0x40000008
May 26 10:45:48 CentOS-62-64-minimal kernel: ata2.00: failed command: READ FPDMA QUEUED
May 26 10:45:48 CentOS-62-64-minimal kernel: ata2.00: cmd 60/80:00:00:48:c3/00:00:04:00:00/40 tag 0 ncq 65536 in
May 26 10:45:48 CentOS-62-64-minimal kernel:         res 41/40:80:20:48:c3/00:00:04:00:00/00 Emask 0x409 (media error) <F>
May 26 10:45:48 CentOS-62-64-minimal kernel: ata2.00: status: { DRDY ERR }
May 26 10:45:48 CentOS-62-64-minimal kernel: ata2.00: error: { UNC }
May 26 10:45:48 CentOS-62-64-minimal kernel: ata2.00: configured for UDMA/133
May 26 10:45:48 CentOS-62-64-minimal kernel: sd 1:0:0:0: [sdb] Unhandled sense code
May 26 10:45:48 CentOS-62-64-minimal kernel: sd 1:0:0:0: [sdb] Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
May 26 10:45:48 CentOS-62-64-minimal kernel: sd 1:0:0:0: [sdb] Sense Key : Medium Error [current] [descriptor]

有什么帮助吗?这可能是什么原因?我需要做什么?

答案1

通常这些错误意味着驱动器(在您的情况下为 /dev/sdb)可能很快就会出现故障。

您可以使用 smartctl 进行扩展 SMART 自我测试,查看是否出现任何错误。

您可以通过运行进行扩展检查

smartctl -t long /dev/sdb

你可以通过运行来查看结果(以及更多信息)

smartctl -a /dev/sdb

还要查找Relocated_Sector_CtOffline_Uncorrectable值。它们应该是 0。如果Relocated_Sector_Ct> 0,则意味着驱动器已将一些难以读取的扇区重新定位到驱动器的备用区域(这是正常行为 - 但表明驱动器可能很快会出现故障)。如果Offline_Uncorrectable> 0,则意味着驱动器出现故障。

请发布结果smartctl -a /dev/sdb

如果未安装 smartctl,您可以通过运行来安装它

yum install smartmontools -y

您遇到的这些错误也可能是由于驱动器电源故障或 SATA 电缆故障造成的。

答案2

您的驱动器似乎sdb出现故障。请在为时已晚之前将其更换。您可以尝试使用 SMART 工具来确认该诊断,使用以下命令:

sudo smartctl -q errorsonly -H -l selftest /dev/hda

相关内容