每分钟 2000 万次 Raw_Read_Error_Rate

每分钟 2000 万次 Raw_Read_Error_Rate

我决定检查硬盘的 SMART 状态,发现它有125239624原始读取错误。一分钟后,我再次检查进行比较,发现它有127315512原始读取错误。

我应该担心吗?此硬盘可能仍在保修期内。我应该将其送去维修吗?

这是完整的输出smartctl -data -a /dev/sda

ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_
FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   118   100   006    Pre-fail  Always       -
       193153912
  3 Spin_Up_Time            0x0023   099   099   000    Pre-fail  Always       -
       0
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -
       289
  5 Reallocated_Sector_Ct   0x0033   100   100   036    Pre-fail  Always       -
       0
  7 Seek_Error_Rate         0x002f   076   060   030    Pre-fail  Always       -
       42002234
  9 Power_On_Hours          0x0032   098   098   000    Old_age   Always       -
       2039
 10 Spin_Retry_Count        0x0033   100   100   097    Pre-fail  Always       -
       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -
       285
183 Runtime_Bad_Block       0x0032   100   100   000    Old_age   Always       -
       0
184 End-to-End_Error        0x0033   100   100   097    Pre-fail  Always       -
       0
187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -
       0
188 Command_Timeout         0x0032   100   100   000    Old_age   Always       -
       0
189 High_Fly_Writes         0x003a   100   100   000    Old_age   Always       -
       0
190 Airflow_Temperature_Cel 0x0022   059   052   045    Old_age   Always       -
       41 (Min/Max 20/42)
191 G-Sense_Error_Rate      0x0032   100   100   000    Old_age   Always       -
       20
192 Power-Off_Retract_Count 0x0022   100   100   000    Old_age   Always       -
       0
193 Load_Cycle_Count        0x0032   038   038   000    Old_age   Always       -
       125873
194 Temperature_Celsius     0x0022   041   048   000    Old_age   Always       -
       41 (0 17 0 0 0)
196 Reallocated_Event_Count 0x0032   100   100   000    Old_age   Always       -
       0
197 Current_Pending_Sector  0x0032   100   100   000    Old_age   Always       -
       0
198 Offline_Uncorrectable   0x0030   100   100   000    Old_age   Offline      -
       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -
       0
254 Free_Fall_Sensor        0x0032   100   100   000    Old_age   Always       -
       0

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
No self-tests have been logged.  [To run self-tests, use: smartctl -t]

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

答案1

因此,SMART 结果格式有点垃圾(至少令人困惑)。现代磁盘中塞满了数据,因此原始错误率通常相当高 - 在应用纠错,数据访问/可靠性没有出现任何问题。

我将重点关注以下几点:

196 Reallocated_Event_Count 0x0032 100 100 000 Old_age Always -0 197 Current_Pending_Sector 0x0032 100 100 000 Old_age Always -0 198 Offline_Uncorrectable 0x0030 100 100 000 Old_age Offline -0

这是扇区数重新分配等待重新分配, 和无法重新分配, 分别。

当磁头碰到坏扇区并且读取失败时,它将变为Current_Pending_Sector。下次您尝试写入它时,它要么成功(一切恢复正常,扇区被重新分配),要么再次失败 - 如果池中有可用的重新分配空间,它将被重新分配。(Reallocated_Event_Count+ 1)。如果池已用完,扇区将变为Offline_Uncorrectable,并且无法再进行读取/写入。

由于您的驱动器没有任何扇区问题,只有标准、现代、数据密度问题Raw_Read Error_Rate,我认为您没有问题。关于备份的标准建议始终适用,但我认为,在这里并不比在任何其他情况下更适用。

答案2

最简洁的答案是不。

报告原始读取错误率的驱动器也将报告无法纠正的错误,只有无法纠正的错误计数器增加时您才需要担心。

此外,错误也可能由驱动器本身以外的因素引起,SATA 电缆故障、电缆连接不良、内存故障、DMI 总线故障和控制器故障都是可能的原因。

如果您发现错误增加,但重新分配的扇区没有增加,首先要做的是尝试不同的电缆,最好也尝试不同的端口。确保您没有超频,使用主板、内存和 CPU 的出厂电压。如果错误仍然存​​在,那么此时您可能会认为驱动器可能存在问题(无法纠正的错误而不是原始读取错误率)。

我认为更重要的其他价值观是。

当前待处理扇区。当某些数据读取失败时,该值会增加,这些扇区将保持待处理状态,直到再次写入,如果写入成功,它们将被删除,不会发生其他任何事情,如果写入失败,则它们将被重新分配。如果再次尝试读取并成功,它们也将被删除。如果您看到待处理扇区,最好在驱动器上运行 chkdsk /r。确保您也有备份。

重新分配的扇区数,当驱动器确定某个扇区已损坏时,该值会上升,它会停用该扇区并改用备份扇区,这通常是即将发生故障的征兆,此时您可能已经没有时间了,只有有限数量的备份扇区,所以最终将没有剩余的备份扇区可以使用,根据我的经验,一旦您获得其中一个或多个,它就会趋于上升,直到发生故障。

答案3

SMART 属性 1 Raw_Read_Error_Rate 和 7 Seek_Error_Rate 不是计数器,而是错误率。它们的原始值对我们来说没有意义,是由制造商定义的。除了 Seagate 制造的硬盘外,任何硬盘都不会报告 Raw_Read_Error_Rate 原始值,因此您使用的是 Seagate。它的重要数字是 118 的值,您可以将其视为 118%,比 100% 更好(这是一个统计相对值)。您完全不用担心。

预故障标志仅指示哪些属性被视为关键,用于确定 SMART PASS/FAIL 状态。如果预故障属性的最差值达到 THRESH,则驱动器被视为故障。

5 Reallocated_Sector_Ct 是一个关键属性,而 196 Reallocated_Event_Count 则不是。

答案4

如果您的数据中心有数千个 HDD,并且更换损坏的 HDD 比处理灾难性故障更容易、更便宜,则可以使用一些 SMART 统计数据来预测故障。对于家庭用户来说,它不够可靠,通常不值得。有时驱动器会毫无征兆地死亡,有时它们会在危急情况下存活数月或数年。

现在我正在使用的计算机的硬盘已经有 4 年多了,并且已经工作了几个月,但出现了来自 smartctl 的以下警告:

...
SMART overall-health self-assessment test result: FAILED!
Drive failure expected in less than 24 hours. SAVE ALL DATA.
...
5 Reallocated_Sector_Ct   0x0033   002   002   036    Pre-fail  Always   FAILING_NOW 4015
...

从统计数据来看,这款硬盘发生故障的可能性已经比您的硬盘高出 21 倍以上,所以,不要太担心。只需保持备份最新即可,您无论如何都应该这样做。

相关内容