设置
我有一个华硕 UX301LA-DE022H
.它包含两个SSD 闪迪 SD6SP1M-256G-1102
,每个 256G,配置为英特尔固件 RAID 0(又名假 RAID)。
发生了什么
我之前一直正常使用 Windows。离开几分钟后,当我回来时,PC 会显示黑屏,并且只会启动到 UEFI 配置屏幕,没有任何启动选项。
因此,PC 没有遭受任何冲击/物理损坏。此时,我怀疑是 Windows 更新混乱或软件/物理驱动器出现故障。
简而言之
其中一个 SSD 不再被检测到,导致整个 RAID 0 磁盘无效。最相关的错误dmesg
是failed to IDENTIFY (I/O error, err_mask=0x4)
。
问题是什么?是物理故障吗?最有可能出现故障的组件是什么?我很想知道在这种情况下是哪个电子元件出现故障。
数据恢复公司将如何恢复数据?他们会更换 SSD 控制器吗?他们会寻找失效电阻吗?
以下是所有详细信息:
调查
- 计算机需要 120 秒才能显示 UEFI 配置屏幕
- UEFI 配置屏幕上没有可用的启动选项
一个 SSD 可以运行(但它只是 RAID 0 的一半!):
在 Linux USB 上启动时被检测到
> dmesg|grep ata2 [ 3.590698] ata2: SATA max UDMA/133 abar m2048@0xf7d22000 port 0xf7d22180 irq 43 [ 51.454606] ata2: SATA link up 6.0 Gbps (SStatus 133 SControl 300) [ 51.455389] ata2.00: ACPI cmd ef/10:09:00:00:00:b0 (SET FEATURES) succeeded [ 51.456504] ata2.00: ATA-8: SanDisk SD6SP1M256G1102, X231302, max UDMA/133 [ 51.456510] ata2.00: 500118192 sectors, multi 1: LBA48 NCQ (depth 31/32), AA [ 51.457752] ata2.00: ACPI cmd ef/10:09:00:00:00:b0 (SET FEATURES) succeeded [ 51.459283] ata2.00: configured for UDMA/133
当 SSD 单独运行时,PC 立即启动,没有任何问题
- 当 SSD 单独运行时,UEFI 配置可以正确检测到它
一个 SSD 无法正常工作:
在 Linux USB 上启动时无法被检测到
> dmesg|grep ata1 [ 3.590697] ata1: SATA max UDMA/133 abar m2048@0xf7d22000 port 0xf7d22100 irq 43 [ 3.904513] ata1: SATA link up 6.0 Gbps (SStatus 133 SControl 300) [ 9.013343] ata1.00: qc timeout (cmd 0xec) [ 9.013356] ata1.00: failed to IDENTIFY (I/O error, err_mask=0x4) [ 9.327983] ata1: SATA link up 6.0 Gbps (SStatus 133 SControl 300) [ 19.466671] ata1.00: qc timeout (cmd 0xec) [ 19.466683] ata1.00: failed to IDENTIFY (I/O error, err_mask=0x4) [ 19.466690] ata1: limiting SATA link speed to 3.0 Gbps [ 19.781305] ata1: SATA link up 3.0 Gbps (SStatus 123 SControl 320) [ 50.826666] ata1.00: qc timeout (cmd 0xec) [ 50.826678] ata1.00: failed to IDENTIFY (I/O error, err_mask=0x4) [ 51.141298] ata1: SATA link up 3.0 Gbps (SStatus 123 SControl 320)
SSD 单独使用时,PC 启动缓慢
- 当 SSD 单独运行时,UEFI 配置会错误地检测到它
- 两个 SATA 端口均正常:我在每个端口上尝试了功能正常的 SSD,并且能够正确且快速地被检测到。
- 当两个 SSD 都存在时,UEFI 配置屏幕会显示两个磁盘。最后一点让我感到困惑:PC 似乎能够知道有两个 SSD,但在尝试访问其中一个 SSD 时超时。
- 两个 SSD 均未出现明显损坏
附加信息(仅显示相关部分):
> blkid
/dev/sdb: TYPE="isw_raid_member"
> lsscsi -L
[1:0:0:0] disk ATA SanDisk SD6SP1M2 302 /dev/sdb
device_blocked=0
iocounterbits=32
iodone_cnt=0x6d
ioerr_cnt=0x2
iorequest_cnt=0x6d
queue_depth=31
queue_type=simple
scsi_level=6
state=running
timeout=30
type=0
> smartctl -iA /dev/sdb
smartctl 6.6 2017-11-05 r4594 [x86_64-linux-4.14.15-1-ARCH] (local build)
Copyright (C) 2002-17, Bruce Allen, Christian Franke, www.smartmontools.org
=== START OF INFORMATION SECTION ===
Device Model: SanDisk SD6SP1M256G1102
Serial Number: 141196400698
LU WWN Device Id: 5 001b44 beb8b143a
Firmware Version: X231302
User Capacity: 256,060,514,304 bytes [256 GB]
Sector Size: 512 bytes logical/physical
Rotation Rate: Solid State Device
Form Factor: Unknown (0x0010)
Device is: Not in smartctl database [for details use: -P showall]
ATA Version is: ATA8-ACS T13/1699-D revision 6
SATA Version is: SATA 3.0, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is: Sun Jul 22 03:01:37 2018 UTC
SMART support is: Available - device has SMART capability.
SMART support is: Enabled
=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 4
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
5 Reallocated_Sector_Ct 0x0032 100 100 --- Old_age Always - 0
9 Power_On_Hours 0x0032 253 100 --- Old_age Always - 3184
12 Power_Cycle_Count 0x0032 100 100 --- Old_age Always - 16004
166 Unknown_Attribute 0x0032 100 100 --- Old_age Always - 1
167 Unknown_Attribute 0x0032 100 100 --- Old_age Always - 19
168 Unknown_Attribute 0x0032 100 100 --- Old_age Always - 117
169 Unknown_Attribute 0x0032 100 100 --- Old_age Always - 379
171 Unknown_Attribute 0x0032 100 100 --- Old_age Always - 0
172 Unknown_Attribute 0x0032 100 100 --- Old_age Always - 0
173 Unknown_Attribute 0x0032 100 100 --- Old_age Always - 27
174 Unknown_Attribute 0x0032 100 100 --- Old_age Always - 39
187 Reported_Uncorrect 0x0032 100 100 --- Old_age Always - 0
194 Temperature_Celsius 0x0022 058 047 --- Old_age Always - 42 (Min/Max 18/47)
212 Unknown_Attribute 0x0032 100 100 --- Old_age Always - 0
230 Unknown_SSD_Attribute 0x0032 100 100 --- Old_age Always - 90
232 Available_Reservd_Space 0x0033 100 100 004 Pre-fail Always - 100
233 Media_Wearout_Indicator 0x0032 100 100 --- Old_age Always - 7187
241 Total_LBAs_Written 0x0030 253 253 --- Old_age Offline - 1266
242 Total_LBAs_Read 0x0030 253 253 --- Old_age Offline - 1203
243 Unknown_Attribute 0x0032 100 100 --- Old_age Always - 0
其他Linux命令如dmidecode
、、fdisk
和lsblk
没有lspci
提供更多相关信息。
注意:我发现了一些相关问题,例如Raid-0 中的 1 个 SSD 发生故障,导致计算机无法启动和如何修复丢失的 RAID1 驱动器但是我无法在启动时访问 RAID 配置屏幕。
如果可能的话,我想从这些磁盘中恢复数据。目前,我对删除数据和将剩余磁盘变成单个磁盘不感兴趣。最终,我会联系一家数据恢复公司,但我想知道问题是什么,以及我能做些什么。
请参阅简而言之问题部分。
答案1
这是一个内核错误,我正在使用内核为 5.10 的 debian 11 并且遇到了同样的问题,一旦我升级到内核 5.18 它就消失了。