磁盘故障异常,但 SMART 数据似乎没有显示任何可疑情况

磁盘故障异常,但 SMART 数据似乎没有显示任何可疑情况

在过去十天里,我遇到了三次磁盘故障,但当我查看磁盘的 SMART 数据时,没有什么特别值得注意的(至少在我看来是这样)。SYSLOG 中的条目属于以下类型

Jul  5 12:59:28 hp-64 kernel: [ 5123.303656] sd 3:0:0:0: [sda] tag#22 FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_TIMEOUT
Jul  5 12:59:28 hp-64 kernel: [ 5123.303671] sd 3:0:0:0: [sda] tag#22 CDB: Write(10) 2a 00 15 c5 48 70 00 00 08 00
Jul  5 12:59:28 hp-64 kernel: [ 5123.303678] blk_update_request: I/O error, dev sda, sector 365250672
Jul  5 12:59:28 hp-64 kernel: [ 5123.303689] EXT4-fs warning (device sda7): ext4_end_bio:330: I/O error -5 writing to inode 7616777 (offset 0 size 0 starting block 45656335)
Jul  5 12:59:28 hp-64 kernel: [ 5123.303695] Buffer I/O error on device sda7, logical block 31739918

以及更多类似情况。然后它将 /home(发生错误的地方)设置为 R/O 模式,尽管在我看来很烦人,它实际上并没有发出任何通知,只是让我从无法保存文件等事实推断出有些不对劲。然后我运行了 fsck(实际上是在重新启动后)并修复了各种错误(我有 inode 列表等),然后它又可以正常工作了。

我运行了 SMART 简短测试,它显示“通过”,据我所知,SMART 数据中的值并不表示任何实际问题,而且几乎所有“最差”值都与“标准化”值相同。机器内的温度不是特别高(目前为 31 摄氏度)。

报告的导致故障的扇区在数值上并不连续,甚至不是特别接近(但我不确定编号与物理介质有何关系)。

我注意到前两次故障是在软件更新后立即发生的,但对于第 2 次和第 3 次故障,错误发生在我访问 Thunderbird 时(第一次故障可能也是如此);我并不是说软件与错误有任何关系。Debugfs 确实显示消息中提到的 inode 在 TB 邮箱中(我只检查了第二次故障)。我可能会在发送此信息后运行更长的 SMART 测试,以便它可能会找到有用的东西,也可能不会。

有人有什么建议或意见吗?

该光盘是 WDC WD500 GB,已使用三年(SMART 表示通电时间不到 6 个月),尽管它是几年前购买的,并且一直放在密封包装中。我正在运行 Xubuntu 16.04LTS。它位于 HP Microserver 中。

再补充一点信息:大约两周前,我在同一台机器上安装了较旧的 Seagate 7200.12 250GB 磁盘,但出现了硬故障,现在我有一张 1TB WD 磁盘等着安装。我认为 Seagate 可能是固件 BSY 漏洞的受害者,并尝试了补救措施,但它在旋转时发出 11 次点击,这似乎表明存在永久寻道错误,而且它仍然死机。然而,我不相信这是相关的,但它只表明了我目前的烦恼程度!

欢迎提出意见

添加了智能结果:

ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE

    1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       0
    3 Spin_Up_Time            0x0027   142   114   021    Pre-fail  Always       -       3891
    4 Start_Stop_Count        0x0032   099   099   000    Old_age   Always       -       1399
    5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
    7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       6
    9 Power_On_Hours          0x0032   095   095   000    Old_age   Always       -       4346
   10 Spin_Retry_Count        0x0032   100   100   000    Old_age   Always       -       0
   11 Calibration_Retry_Count 0x0032   100   100   000    Old_age   Always       -       0
   12 Power_Cycle_Count       0x0032   099   099   000    Old_age   Always       -       1399
  192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       32
  193 Load_Cycle_Count        0x0032   173   173   000    Old_age   Always       -       83009
  194 Temperature_Celsius     0x0022   123   107   000    Old_age   Always       -       20
  196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
  197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       0
  198 Offline_Uncorrectable   0x0030   200   200   000    Old_age   Offline      -       0
  199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
  200 Multi_Zone_Error_Rate   0x0008   200   200   000    Old_age   Offline      -       0

并且“扩展”测试“无错误完成”

格雷厄姆

相关内容