RAID-0 SSD 故障:I/O 错误,err_mask=0x4

RAID-0 SSD 故障:I/O 错误,err_mask=0x4

设置

我有一个华硕 UX301LA-DE022H.它包含两个SSD 闪迪 SD6SP1M-256G-1102,每个 256G,配置为英特尔固件 RAID 0(又名假 RAID)。

发生了什么

我之前一直正常使用 Windows。离开几分钟后,当我回来时,PC 会显示黑屏,并且只会启动到 UEFI 配置屏幕,没有任何启动选项。

因此,PC 没有遭受任何冲击/物理损坏。此时,我怀疑是 Windows 更新混乱或软件/物理驱动器出现故障。

简而言之

其中一个 SSD 不再被检测到,导致整个 RAID 0 磁盘无效。最相关的错误dmesgfailed to IDENTIFY (I/O error, err_mask=0x4)

问题是什么?是物理故障吗?最有可能出现故障的组件是什么?我很想知道在这种情况下是哪个电子元件出现故障。

数据恢复公司将如何恢复数据?他们会更换 SSD 控制器吗?他们会寻找失效电阻吗?


以下是所有详细信息:

调查

  • 计算机需要 120 秒才能显示 UEFI 配置屏幕
  • UEFI 配置屏幕上没有可用的启动选项
  • 一个 SSD 可以运行(但它只是 RAID 0 的一半!):

    • 在 Linux USB 上启动时被检测到

      > dmesg|grep ata2
      [    3.590698] ata2: SATA max UDMA/133 abar m2048@0xf7d22000 port 0xf7d22180 irq 43
      [   51.454606] ata2: SATA link up 6.0 Gbps (SStatus 133 SControl 300)
      [   51.455389] ata2.00: ACPI cmd ef/10:09:00:00:00:b0 (SET FEATURES) succeeded
      [   51.456504] ata2.00: ATA-8: SanDisk SD6SP1M256G1102, X231302, max UDMA/133
      [   51.456510] ata2.00: 500118192 sectors, multi 1: LBA48 NCQ (depth 31/32), AA
      [   51.457752] ata2.00: ACPI cmd ef/10:09:00:00:00:b0 (SET FEATURES) succeeded
      [   51.459283] ata2.00: configured for UDMA/133
      
    • 当 SSD 单独运行时,PC 立即启动,没有任何问题

    • 当 SSD 单独运行时,UEFI 配置可以正确检测到它

SSD 工作-uefi

  • 一个 SSD 无法正常工作:

    • 在 Linux USB 上启动时无法被检测到

      > dmesg|grep ata1
      [    3.590697] ata1: SATA max UDMA/133 abar m2048@0xf7d22000 port 0xf7d22100 irq 43
      [    3.904513] ata1: SATA link up 6.0 Gbps (SStatus 133 SControl 300)
      [    9.013343] ata1.00: qc timeout (cmd 0xec)
      [    9.013356] ata1.00: failed to IDENTIFY (I/O error, err_mask=0x4)
      [    9.327983] ata1: SATA link up 6.0 Gbps (SStatus 133 SControl 300)
      [   19.466671] ata1.00: qc timeout (cmd 0xec)
      [   19.466683] ata1.00: failed to IDENTIFY (I/O error, err_mask=0x4)
      [   19.466690] ata1: limiting SATA link speed to 3.0 Gbps
      [   19.781305] ata1: SATA link up 3.0 Gbps (SStatus 123 SControl 320)
      [   50.826666] ata1.00: qc timeout (cmd 0xec)
      [   50.826678] ata1.00: failed to IDENTIFY (I/O error, err_mask=0x4)
      [   51.141298] ata1: SATA link up 3.0 Gbps (SStatus 123 SControl 320)
      
    • SSD 单独使用时,PC 启动缓慢

    • 当 SSD 单独运行时,UEFI 配置会错误地检测到它

SSD 不工作-uefi

  • 两个 SATA 端口均正常:我在每个端口上尝试了功能正常的 SSD,并且能够正确且快速地被检测到。
  • 当两个 SSD 都存在时,UEFI 配置屏幕会显示两个磁盘。最后一点让我感到困惑:PC 似乎能够知道有两个 SSD,但在尝试访问其中一个 SSD 时超时。

两者皆为 SSD

  • 两个 SSD 均未出现明显损坏

固态硬盘-1 固态硬盘-2

附加信息(仅显示相关部分):

> blkid
/dev/sdb: TYPE="isw_raid_member"

> lsscsi -L
[1:0:0:0]    disk    ATA      SanDisk SD6SP1M2 302   /dev/sdb
  device_blocked=0
  iocounterbits=32
  iodone_cnt=0x6d
  ioerr_cnt=0x2
  iorequest_cnt=0x6d
  queue_depth=31
  queue_type=simple
  scsi_level=6
  state=running
  timeout=30
  type=0

> smartctl -iA /dev/sdb
smartctl 6.6 2017-11-05 r4594 [x86_64-linux-4.14.15-1-ARCH] (local build)
Copyright (C) 2002-17, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Device Model:     SanDisk SD6SP1M256G1102
Serial Number:    141196400698
LU WWN Device Id: 5 001b44 beb8b143a
Firmware Version: X231302
User Capacity:    256,060,514,304 bytes [256 GB]
Sector Size:      512 bytes logical/physical
Rotation Rate:    Solid State Device
Form Factor:      Unknown (0x0010)
Device is:        Not in smartctl database [for details use: -P showall]
ATA Version is:   ATA8-ACS T13/1699-D revision 6
SATA Version is:  SATA 3.0, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is:    Sun Jul 22 03:01:37 2018 UTC
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 4
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  5 Reallocated_Sector_Ct   0x0032   100   100   ---    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   253   100   ---    Old_age   Always       -       3184
 12 Power_Cycle_Count       0x0032   100   100   ---    Old_age   Always       -       16004
166 Unknown_Attribute       0x0032   100   100   ---    Old_age   Always       -       1
167 Unknown_Attribute       0x0032   100   100   ---    Old_age   Always       -       19
168 Unknown_Attribute       0x0032   100   100   ---    Old_age   Always       -       117
169 Unknown_Attribute       0x0032   100   100   ---    Old_age   Always       -       379
171 Unknown_Attribute       0x0032   100   100   ---    Old_age   Always       -       0
172 Unknown_Attribute       0x0032   100   100   ---    Old_age   Always       -       0
173 Unknown_Attribute       0x0032   100   100   ---    Old_age   Always       -       27
174 Unknown_Attribute       0x0032   100   100   ---    Old_age   Always       -       39
187 Reported_Uncorrect      0x0032   100   100   ---    Old_age   Always       -       0
194 Temperature_Celsius     0x0022   058   047   ---    Old_age   Always       -       42 (Min/Max 18/47)
212 Unknown_Attribute       0x0032   100   100   ---    Old_age   Always       -       0
230 Unknown_SSD_Attribute   0x0032   100   100   ---    Old_age   Always       -       90
232 Available_Reservd_Space 0x0033   100   100   004    Pre-fail  Always       -       100
233 Media_Wearout_Indicator 0x0032   100   100   ---    Old_age   Always       -       7187
241 Total_LBAs_Written      0x0030   253   253   ---    Old_age   Offline      -       1266
242 Total_LBAs_Read         0x0030   253   253   ---    Old_age   Offline      -       1203
243 Unknown_Attribute       0x0032   100   100   ---    Old_age   Always       -       0

其他Linux命令如dmidecode、、fdisklsblk没有lspci提供更多相关信息。

注意:我发现了一些相关问题,例如Raid-0 中的 1 个 SSD 发生故障,导致计算机无法启动如何修复丢失的 RAID1 驱动器但是我无法在启动时访问 RAID 配置屏幕。

如果可能的话,我想从这些磁盘中恢复数据。目前,我对删除数据和将剩余磁盘变成单个磁盘不感兴趣。最终,我会联系一家数据恢复公司,但我想知道问题是什么,以及我能做些什么。

请参阅简而言之问题部分。

答案1

这是一个内核错误,我正在使用内核为 5.10 的 debian 11 并且遇到了同样的问题,一旦我升级到内核 5.18 它就消失了。

相关内容