我决定检查硬盘的 SMART 状态,发现它有125239624
原始读取错误。一分钟后,我再次检查进行比较,发现它有127315512
原始读取错误。
我应该担心吗?此硬盘可能仍在保修期内。我应该将其送去维修吗?
这是完整的输出smartctl -data -a /dev/sda
:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_
FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x002f 118 100 006 Pre-fail Always -
193153912
3 Spin_Up_Time 0x0023 099 099 000 Pre-fail Always -
0
4 Start_Stop_Count 0x0032 100 100 000 Old_age Always -
289
5 Reallocated_Sector_Ct 0x0033 100 100 036 Pre-fail Always -
0
7 Seek_Error_Rate 0x002f 076 060 030 Pre-fail Always -
42002234
9 Power_On_Hours 0x0032 098 098 000 Old_age Always -
2039
10 Spin_Retry_Count 0x0033 100 100 097 Pre-fail Always -
0
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always -
285
183 Runtime_Bad_Block 0x0032 100 100 000 Old_age Always -
0
184 End-to-End_Error 0x0033 100 100 097 Pre-fail Always -
0
187 Reported_Uncorrect 0x0032 100 100 000 Old_age Always -
0
188 Command_Timeout 0x0032 100 100 000 Old_age Always -
0
189 High_Fly_Writes 0x003a 100 100 000 Old_age Always -
0
190 Airflow_Temperature_Cel 0x0022 059 052 045 Old_age Always -
41 (Min/Max 20/42)
191 G-Sense_Error_Rate 0x0032 100 100 000 Old_age Always -
20
192 Power-Off_Retract_Count 0x0022 100 100 000 Old_age Always -
0
193 Load_Cycle_Count 0x0032 038 038 000 Old_age Always -
125873
194 Temperature_Celsius 0x0022 041 048 000 Old_age Always -
41 (0 17 0 0 0)
196 Reallocated_Event_Count 0x0032 100 100 000 Old_age Always -
0
197 Current_Pending_Sector 0x0032 100 100 000 Old_age Always -
0
198 Offline_Uncorrectable 0x0030 100 100 000 Old_age Offline -
0
199 UDMA_CRC_Error_Count 0x0032 200 200 000 Old_age Always -
0
254 Free_Fall_Sensor 0x0032 100 100 000 Old_age Always -
0
SMART Error Log Version: 1
No Errors Logged
SMART Self-test log structure revision number 1
No self-tests have been logged. [To run self-tests, use: smartctl -t]
SMART Selective self-test log data structure revision number 1
SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS
1 0 0 Not_testing
2 0 0 Not_testing
3 0 0 Not_testing
4 0 0 Not_testing
5 0 0 Not_testing
Selective self-test flags (0x0):
After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.
答案1
因此,SMART 结果格式有点垃圾(至少令人困惑)。现代磁盘中塞满了数据,因此原始错误率通常相当高 - 在应用纠错,数据访问/可靠性没有出现任何问题。
我将重点关注以下几点:
196 Reallocated_Event_Count 0x0032 100 100 000 Old_age Always -0 197 Current_Pending_Sector 0x0032 100 100 000 Old_age Always -0 198 Offline_Uncorrectable 0x0030 100 100 000 Old_age Offline -0
这是扇区数重新分配,等待重新分配, 和无法重新分配, 分别。
当磁头碰到坏扇区并且读取失败时,它将变为Current_Pending_Sector
。下次您尝试写入它时,它要么成功(一切恢复正常,扇区被重新分配),要么再次失败 - 如果池中有可用的重新分配空间,它将被重新分配。(Reallocated_Event_Count
+ 1)。如果池已用完,扇区将变为Offline_Uncorrectable
,并且无法再进行读取/写入。
由于您的驱动器没有任何扇区问题,只有标准、现代、数据密度问题Raw_Read Error_Rate
,我认为您没有问题。关于备份的标准建议始终适用,但我认为,在这里并不比在任何其他情况下更适用。
答案2
最简洁的答案是不。
报告原始读取错误率的驱动器也将报告无法纠正的错误,只有无法纠正的错误计数器增加时您才需要担心。
此外,错误也可能由驱动器本身以外的因素引起,SATA 电缆故障、电缆连接不良、内存故障、DMI 总线故障和控制器故障都是可能的原因。
如果您发现错误增加,但重新分配的扇区没有增加,首先要做的是尝试不同的电缆,最好也尝试不同的端口。确保您没有超频,使用主板、内存和 CPU 的出厂电压。如果错误仍然存在,那么此时您可能会认为驱动器可能存在问题(无法纠正的错误而不是原始读取错误率)。
我认为更重要的其他价值观是。
当前待处理扇区。当某些数据读取失败时,该值会增加,这些扇区将保持待处理状态,直到再次写入,如果写入成功,它们将被删除,不会发生其他任何事情,如果写入失败,则它们将被重新分配。如果再次尝试读取并成功,它们也将被删除。如果您看到待处理扇区,最好在驱动器上运行 chkdsk /r。确保您也有备份。
重新分配的扇区数,当驱动器确定某个扇区已损坏时,该值会上升,它会停用该扇区并改用备份扇区,这通常是即将发生故障的征兆,此时您可能已经没有时间了,只有有限数量的备份扇区,所以最终将没有剩余的备份扇区可以使用,根据我的经验,一旦您获得其中一个或多个,它就会趋于上升,直到发生故障。
答案3
SMART 属性 1 Raw_Read_Error_Rate 和 7 Seek_Error_Rate 不是计数器,而是错误率。它们的原始值对我们来说没有意义,是由制造商定义的。除了 Seagate 制造的硬盘外,任何硬盘都不会报告 Raw_Read_Error_Rate 原始值,因此您使用的是 Seagate。它的重要数字是 118 的值,您可以将其视为 118%,比 100% 更好(这是一个统计相对值)。您完全不用担心。
预故障标志仅指示哪些属性被视为关键,用于确定 SMART PASS/FAIL 状态。如果预故障属性的最差值达到 THRESH,则驱动器被视为故障。
5 Reallocated_Sector_Ct 是一个关键属性,而 196 Reallocated_Event_Count 则不是。
答案4
如果您的数据中心有数千个 HDD,并且更换损坏的 HDD 比处理灾难性故障更容易、更便宜,则可以使用一些 SMART 统计数据来预测故障。对于家庭用户来说,它不够可靠,通常不值得。有时驱动器会毫无征兆地死亡,有时它们会在危急情况下存活数月或数年。
现在我正在使用的计算机的硬盘已经有 4 年多了,并且已经工作了几个月,但出现了来自 smartctl 的以下警告:
...
SMART overall-health self-assessment test result: FAILED!
Drive failure expected in less than 24 hours. SAVE ALL DATA.
...
5 Reallocated_Sector_Ct 0x0033 002 002 036 Pre-fail Always FAILING_NOW 4015
...
从统计数据来看,这款硬盘发生故障的可能性已经比您的硬盘高出 21 倍以上,所以,不要太担心。只需保持备份最新即可,您无论如何都应该这样做。