硬盘驱动器错误

硬盘驱动器错误

我的/home文件系统是 JFS,它已经多次进入 RO 模式,所以我必须重新启动/重新安装它。我在“/var/log/messages”中看到了这个:

12 月 31 日 10:12:49 uvv-laptop-y570 内核:[ 983.925711] ata2.00:配置为 UDMA/133
12 月 31 日 10:12:49 uvv-laptop-y570 内核:[ 983.925755] sd 1:0:0:0:[sda] 未处理的感知代码
12 月 31 日 10:12:49 uvv-laptop-y570 内核:[ 983.925759] sd 1:0:0:0:[sda]  
12 月 31 日 10:12:49 uvv-laptop-y570 内核:[ 983.925763] sd 1:0:0:0:[sda]  
12月31日10:12:49 uvv-laptop-y570内核:[983.925770] 72 03 11 04 00 00 00 0c 00 0a 80 00 00 00 00 00
12 月 31 日 10:12:49 uvv-laptop-y570 内核:[ 983.925778] 0e 5a b2 b8
12 月 31 日 10:12:49 uvv-laptop-y570 内核:[ 983.925782] sd 1:0:0:0:[sda]  
12 月 31 日 10:12:49 uvv-laptop-y570 内核:[ 983.925785] sd 1:0:0:0:[sda] CDB:
12 月 31 日 10:12:49 uvv-laptop-y570 内核:[ 983.925815] sd 1:0:0:0:[sda] 未处理的感知代码
12月31日 10:12:49 uvv-laptop-y570 内核:[983.925817] sd 1:0:0:0:[sda]  
12 月 31 日 10:12:49 uvv-laptop-y570 内核:[ 983.925820] sd 1:0:0:0:[sda]  
12月31日10:12:49 uvv-laptop-y570内核:[983.925825] 72 03 11 04 00 00 00 0c 00 0a 80 00 00 00 00 00
12 月 31 日 10:12:49 uvv-laptop-y570 内核:[ 983.925833] 00 00 00 00
12 月 31 日 10:12:49 uvv-laptop-y570 内核:[ 983.925836] sd 1:0:0:0:[sda]  
12 月 31 日 10:12:49 uvv-laptop-y570 内核:[ 983.925839] sd 1:0:0:0:[sda] CDB:
12 月 31 日 10:12:49 uvv-laptop-y570 内核:[ 983.925863] sd 1:0:0:0:[sda] 未处理的感知代码
12 月 31 日 10:12:49 uvv-laptop-y570 内核:[ 983.925865] sd 1:0:0:0:[sda]  
12 月 31 日 10:12:49 uvv-laptop-y570 内核:[ 983.925868] sd 1:0:0:0:[sda]  
12月31日10:12:49 uvv-laptop-y570内核:[983.925872] 72 03 11 04 00 00 00 0c 00 0a 80 00 00 00 00 00
12 月 31 日 10:12:49 uvv-laptop-y570 内核:[ 983.925879] 00 00 00 00
12 月 31 日 10:12:49 uvv-laptop-y570 内核:[ 983.925882] sd 1:0:0:0:[sda]  
12 月 31 日 10:12:49 uvv-laptop-y570 内核:[ 983.925885] sd 1:0:0:0:[sda] CDB:
12 月 31 日 10:12:49 uvv-laptop-y570 内核:[ 983.925908] ata2:EH 完成

smartctl -a /dev/sda给了我这个:

SMART 属性数据结构修订号:16
供应商特定的 SMART 属性及阈值:
ID# ATTRIBUTE_NAME 标志值 最差阈值类型已更新 WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate 0x002f 200 200 051 预失败始终 - 0
  3 Spin_Up_Time 0x0027 179 174 021 故障前始终 - 2008
  4 Start_Stop_Count 0x0032 099 099 000 Old_age 始终 - 1005
  5 Reallocated_Sector_Ct 0x0033 200 200 140 故障前始终 - 0
  7 Seek_Error_Rate 0x002e 200 200 000 Old_age 始终 - 0
  9 Power_On_Hours 0x0032 082 082 000 Old_age 始终 - 13675
 10 Spin_Retry_Count 0x0032 100 100 000 Old_age 始终 - 0
 11 Calibration_Retry_Count 0x0032 100 100 000 Old_age 始终 - 0
 12 Power_Cycle_Count 0x0032 100 100 000 Old_age 始终 - 998
192 Power-Off_Retract_Count 0x0032 200 200 000 Old_age 始终 - 37
193 Load_Cycle_Count 0x0032 001 001 000 Old_age 始终 - 810861
194Temperature_Celsius 0x0022 106 091 000 Old_age 始终 - 41
196 Reallocated_Event_Count 0x0032 200 200 000 Old_age 始终 - 0
197 Current_Pending_Sector 0x0032 200 200 000 Old_age 始终 - 1
198 Offline_Un Correctable 0x0030 100 253 000 Old_age 离线 - 0
199 UDMA_CRC_Error_Count 0x0032 200 200 000 Old_age 始终 - 0
200 Multi_Zone_Error_Rate 0x0008 200 200 000 Old_age 离线 - 0

硬盘型号:

型号系列:Western Digital Scorpio Blue 串行 ATA(高级格式)
设备型号:WDC WD7500BPVT-24HXZT3
序列号:WD-WX91A91R4010
LU WWN 设备 ID:5 0014ee 601b831c9
固件版本:03.01A03

更新:我开始了另一次自测(几个月前我做的第一次自测)并得到了一些更新:

SMART 自检日志结构修订号 1
Num Test_Description 状态 剩余寿命(小时) LBA_of_first_error
# 1 扩展离线完成:读取失败 90% 13680 229857912
# 2 延长离线时间 完成且无错误 00% 9661 -
# 3 扩展离线完成:读取失败 90% 9654 96004576
# 4 扩展离线完成:读取失败90% 9653 96004576

从 #2 到 #4 的行我之前已经有了。我遵循了这些指南:坏块指南调试文件系统。似乎该块不再被报告为错误,但它不在重新定位的块中也没有增加。在我向坏块写入零后,唯一增加的是 Raw_Read_Error_Rate。

问题是我应该考虑订购新的硬盘吗?

答案1

smartctl手册页:

打印出的属性表智能控制还显示属性的“类型”。属性是两种可能类型之一:故障前或老年。故障前属性是指如果小于或等于其阈值,则指示待处理的磁盘故障的属性。老化或使用属性是指如果属性值小于或等于阈值,则指示由于老化或正常老化和磨损而导致产品寿命终止的属性。 请注意:属性的类型为“Pre-fail”这一事实并不意味着您的磁盘即将发生故障!仅当属性的当前标准化值小于或等于阈值时,它才具有此含义。

如果属性的当前标准化值小于或等于阈值,则“WHEN_FAILED”列将显示“FAILING_NOW”。如果不是,但最差记录值小于或等于阈值,则该列将显示“In_the_past”。如果“WHEN_FAILED”列没有条目(用破折号表示:“-”),则该属性现在正常(没有失败)并且过去也从未失败过。

因此,根据smartctl您发布的输出部分,您的驱动器实际上看起来状态良好。然而,这并不一定意味着不存在其他问题。

不幸的是,该Unhandled sense code消息确实意味着出了问题,但内核不知道出了什么问题。您可以尝试查看其余的smartctl输出,看看是否有任何问题。应该有一个部分总结驱动器的整体健康状况。您可以通过该选项单独获取它-H

如果驱动器支持自测试,您可以通过以下方式启动自测试:

smartctl -t long /dev/sda

这会在后台启动一个,因此您必须继续检查结果。如果未安装驱动器,您可以添加-C选项启用强制模式,这将花费更少的时间。short也可以进行测试,但不太彻底。

检查物理连接器等以确保没有任何松动也是一个好主意 - 如果有的话,修复起来很容易。

更新

维基百科有一个很好的参考智能属性。请注意,“更好”列是指输出最右列中的原始值,而不是开始时的标准化值。这是提到的“当前待处理部门”的部分弗罗斯特舒茨:

“不稳定”扇区的数量(由于不可恢复的读取错误而等待重新映射)。如果随后成功读取了不稳定扇区,则重新映射该扇区,并减少此值。扇区上的读取错误不会立即重新映射该扇区(因为无法读取正确的值,因此不知道要重新映射的值,而且该值可能稍后才可读);相反,驱动器固件会记住需要重新映射该扇区,并在下次写入时重新映射它。但是,有些驱动器在写入时不会立即重新映射此类扇区;相反,驱动器将首先尝试写入问题扇区,如果写入操作成功,则该扇区将被标记为良好(在这种情况下,“重新分配事件计数”(0xC4)不会增加)。这是一个严重的缺点,因为如果这样的驱动器包含边缘扇区,这些扇区仅在成功写入操作后经过一段时间后才持续失败,那么驱动器将永远不会重新映射这些问题扇区。

答案2

您的驱动器有 1 个当前待处理扇区;这意味着该扇区无法正确读取。通常这是硬件问题,并导致 SMART 自检期间读取失败。如果您写入此扇区,它可能会“解决”问题或变成重新分配的扇区。

由于从技术上讲,驱动器此时已经丢失了数据,因此我将不再信任它来处理重要的事情。

相关内容