在过去十天里,我遇到了三次磁盘故障,但当我查看磁盘的 SMART 数据时,没有什么特别值得注意的(至少在我看来是这样)。SYSLOG 中的条目属于以下类型
Jul 5 12:59:28 hp-64 kernel: [ 5123.303656] sd 3:0:0:0: [sda] tag#22 FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_TIMEOUT
Jul 5 12:59:28 hp-64 kernel: [ 5123.303671] sd 3:0:0:0: [sda] tag#22 CDB: Write(10) 2a 00 15 c5 48 70 00 00 08 00
Jul 5 12:59:28 hp-64 kernel: [ 5123.303678] blk_update_request: I/O error, dev sda, sector 365250672
Jul 5 12:59:28 hp-64 kernel: [ 5123.303689] EXT4-fs warning (device sda7): ext4_end_bio:330: I/O error -5 writing to inode 7616777 (offset 0 size 0 starting block 45656335)
Jul 5 12:59:28 hp-64 kernel: [ 5123.303695] Buffer I/O error on device sda7, logical block 31739918
以及更多类似情况。然后它将 /home(发生错误的地方)设置为 R/O 模式,尽管在我看来很烦人,它实际上并没有发出任何通知,只是让我从无法保存文件等事实推断出有些不对劲。然后我运行了 fsck(实际上是在重新启动后)并修复了各种错误(我有 inode 列表等),然后它又可以正常工作了。
我运行了 SMART 简短测试,它显示“通过”,据我所知,SMART 数据中的值并不表示任何实际问题,而且几乎所有“最差”值都与“标准化”值相同。机器内的温度不是特别高(目前为 31 摄氏度)。
报告的导致故障的扇区在数值上并不连续,甚至不是特别接近(但我不确定编号与物理介质有何关系)。
我注意到前两次故障是在软件更新后立即发生的,但对于第 2 次和第 3 次故障,错误发生在我访问 Thunderbird 时(第一次故障可能也是如此);我并不是说软件与错误有任何关系。Debugfs 确实显示消息中提到的 inode 在 TB 邮箱中(我只检查了第二次故障)。我可能会在发送此信息后运行更长的 SMART 测试,以便它可能会找到有用的东西,也可能不会。
有人有什么建议或意见吗?
该光盘是 WDC WD500 GB,已使用三年(SMART 表示通电时间不到 6 个月),尽管它是几年前购买的,并且一直放在密封包装中。我正在运行 Xubuntu 16.04LTS。它位于 HP Microserver 中。
再补充一点信息:大约两周前,我在同一台机器上安装了较旧的 Seagate 7200.12 250GB 磁盘,但出现了硬故障,现在我有一张 1TB WD 磁盘等着安装。我认为 Seagate 可能是固件 BSY 漏洞的受害者,并尝试了补救措施,但它在旋转时发出 11 次点击,这似乎表明存在永久寻道错误,而且它仍然死机。然而,我不相信这是相关的,但它只表明了我目前的烦恼程度!
欢迎提出意见
添加了智能结果:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x002f 200 200 051 Pre-fail Always - 0
3 Spin_Up_Time 0x0027 142 114 021 Pre-fail Always - 3891
4 Start_Stop_Count 0x0032 099 099 000 Old_age Always - 1399
5 Reallocated_Sector_Ct 0x0033 200 200 140 Pre-fail Always - 0
7 Seek_Error_Rate 0x002e 200 200 000 Old_age Always - 6
9 Power_On_Hours 0x0032 095 095 000 Old_age Always - 4346
10 Spin_Retry_Count 0x0032 100 100 000 Old_age Always - 0
11 Calibration_Retry_Count 0x0032 100 100 000 Old_age Always - 0
12 Power_Cycle_Count 0x0032 099 099 000 Old_age Always - 1399
192 Power-Off_Retract_Count 0x0032 200 200 000 Old_age Always - 32
193 Load_Cycle_Count 0x0032 173 173 000 Old_age Always - 83009
194 Temperature_Celsius 0x0022 123 107 000 Old_age Always - 20
196 Reallocated_Event_Count 0x0032 200 200 000 Old_age Always - 0
197 Current_Pending_Sector 0x0032 200 200 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0030 200 200 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x0032 200 200 000 Old_age Always - 0
200 Multi_Zone_Error_Rate 0x0008 200 200 000 Old_age Offline - 0
并且“扩展”测试“无错误完成”
格雷厄姆