3ware：尝试重建时驱动器电源复位

2024-5-29 • tag-icon

3ware：尝试重建时驱动器电源复位

我有RAID bus controller: 3ware Inc 9550SX SATA-II RAID PCI-X四个磁盘，当前状态如下：

tw_cli> /c1 show

Unit  UnitType  Status         %RCmpl  %V/I/M  Stripe  Size(GB)  Cache  AVrfy
------------------------------------------------------------------------------
u0    RAID-5    REBUILD-PAUSED 0%      -       256K    931.303   OFF    OFF
u1    SPARE     OK             -       -       -       465.753   -      OFF

Port   Status           Unit   Size        Blocks        Serial
---------------------------------------------------------------
p0     OK               u0     465.76 GB   976773168     WD-WCAS87320631
p1     OK               u0     465.76 GB   976773168     WD-WCAS87223554
p2     DEGRADED         u0     465.76 GB   976773168     WD-WCAS87159042
p3     OK               u1     465.76 GB   976773168     WD-WMAYP6812676
p4     NOT-PRESENT      -      -           -             -
p5     NOT-PRESENT      -      -           -             -
p6     NOT-PRESENT      -      -           -             -
p7     NOT-PRESENT      -      -           -             -

已启用重建。有时它会启动（状态：）REBUILDING，似乎运行一分钟左右，然后返回到REBUILD-PAUSED。%RCmpl永远不会超过 0%。Log（/var/log/messages）大约每五分钟显示一次：

Dec  5 23:41:57 somelinux kernel: 3w-9xxx: scsi1: AEN: INFO (0x04:0x000B): Rebuild started:unit=0.
Dec  5 23:42:30 somelinux kernel: 3w-9xxx: scsi1: AEN: ERROR (0x04:0x003A): Drive power on reset detected:port=1.
Dec  5 23:42:30 somelinux kernel: 3w-9xxx: scsi1: AEN: WARNING (0x04:0x0019): Drive removed:port=1.
Dec  5 23:42:30 somelinux kernel: 3w-9xxx: scsi1: AEN: INFO (0x04:0x001A): Drive inserted:port=1.

我对这个硬件不熟悉，接手了这台机器和维护工作。这说明什么？我遇到的问题有多大？我该怎么办？

新活动

Dec  6 00:25:42 somelinux kernel: sd 1:0:0:0: Device not ready: <6>: Current<4>3w-9xxx: scsi1: AEN: WARNING (0x04:0x0019): Drive removed:port=1.
Dec  6 00:25:42 somelinux kernel: : sense key=0x2
Dec  6 00:25:42 somelinux kernel: ASC=0x4 ASCQ=0x0
Dec  6 00:25:42 somelinux kernel: end_request: I/O error, dev sdc, sector 144738143
Dec  6 00:25:42 somelinux kernel: sd 1:0:0:0: Device not ready: <6>: Current: sense key=0x2
Dec  6 00:25:42 somelinux kernel: ASC=0x4 ASCQ=0x0
Dec  6 00:25:42 somelinux kernel: end_request: I/O error, dev sdc, sector 144738143
Dec  6 00:25:43 somelinux kernel: 3w-9xxx: scsi1: AEN: ERROR (0x04:0x001E): Unit inoperable:unit=0.
Dec  6 00:28:02 somelinux kernel: sd 1:0:0:0: Device not ready: <6>: Current: sense key=0x2
Dec  6 00:28:02 somelinux kernel: ASC=0x4 ASCQ=0x0
Dec  6 00:28:02 somelinux kernel: end_request: I/O error, dev sdc, sector 104927621
Dec  6 00:28:02 somelinux kernel: xfs_force_shutdown(dm-0,0x2) called from line 956 of file fs/xfs/xfs_log.c.  Return address = 0xc028860d

... 和 ...

tw_cli> /c1 show

Unit  UnitType  Status         %RCmpl  %V/I/M  Stripe  Size(GB)  Cache  AVrfy
------------------------------------------------------------------------------
u0    RAID-5    INOPERABLE     -       -       256K    931.303   OFF    OFF
u1    SPARE     OK             -       -       -       465.753   -      OFF

Port   Status           Unit   Size        Blocks        Serial
---------------------------------------------------------------
p0     OK               u0     465.76 GB   976773168     WD-WCAS87320631
p1     NOT-PRESENT      -      -           -             -
p2     OK               u0     465.76 GB   976773168     WD-WCAS87159042
p3     OK               u1     465.76 GB   976773168     WD-WMAYP6812676
p4     NOT-PRESENT      -      -           -             -
p5     NOT-PRESENT      -      -           -             -
p6     NOT-PRESENT      -      -           -             -
p7     NOT-PRESENT      -      -           -             -

看来 p1 的情况确实很糟糕。

跟进

它总是能工作几分钟/几小时，然后就无法使用了。这样我就设法备份了数据。我很幸运。我意识到我需要更加注意，否则冗余存储就毫无意义了。

删除旧阵列。移除故障磁盘。定义一个有 3 个良好成员的新阵列。重新创建文件系统。恢复备份。圆满结局。

答案1

振作起来。

你的 RAID 5 已失效：

u0    RAID-5    INOPERABLE     -       -       256K    931.303   OFF    OFF

这也是 SCSI / I/O 错误的原因。您的 RAID 5 不是 4 个磁盘；只有 3 个。第四个磁盘 p3 位于其自己的单元 u1 中，而不是主单元 u0 中。

根据您提供的文本判断，可能发生的情况如下：

p2 已降级，您尝试重建
在此期间，p1 不再被检测到
由于 2 个驱动器未工作/未检测到，导致 RAID 5 故障

p2 现在显示“OK”这一事实与 RAID 5 的状态无关。

我希望这台服务器有备份，因为您不太可能恢复它。我不认为 tw_cli 支持强制阵列联机。虽然以下内容不会帮助您从这个失败的阵列中检索数据，但我建议这样做：

更换故障/丢失的驱动器 (p1)
由于该卡不支持 RAID 6，我们无法使用它（推荐用于大型驱动器），所以我们必须使用 RAID 10。使用 RAID 10 重新创建，创建分区，格式化/挂载并更新 /etc/fstab。
从备份中恢复，我希望你已经

无论是谁将其设置为 RAID 5 并且带有备用磁盘（它的设置也不正确），都不是明智之举。

相关内容