smartctl:令人困惑的属性和自检结果

smartctl:令人困惑的属性和自检结果

我保存旧照片、视频等的服务器包含一堆旋转的 3TB 磁盘(WD Caviar Green)。我很少打开它。

我最近查看了我的磁盘的 SMART 数据。其中一个磁盘似乎有两个不稳定的扇区正在等待重新映射(完整输出smartctl -a如下)。但是,我可以读取这些扇区。

我的问题:根据 smartctl 手册页,VALUE <= THRESH 表示由于老化或正常老化和磨损而导致的产品寿命终止对于 Old_age 属性。但是,所有 Old_age 属性的 THRESH 均为 0。我该如何解释这一点?这个磁盘永远不会老化吗?

此外,阅读自我测试的第一个错误的 LBA似乎不会导致错误,并且不会增加原始读取错误率。 这寿命对应于通电时间属性,即此处报告的测试是最近的。这里发生了什么?

我真正的问题是我是否应该删除这个磁盘。

完整测试结果:

user@debian:~$ sudo smartctl -a /dev/sdb
smartctl 7.2 2020-12-30 r5155 [x86_64-linux-5.10.0-20-amd64] (local build)
Copyright (C) 2002-20, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family:     Western Digital Green
Device Model:     WDC WD30EZRX-00D8PB0
Serial Number:    WD-WCC4NDRX3STA
LU WWN Device Id: 5 0014ee 2602ac529
Firmware Version: 80.00A80
User Capacity:    3,000,592,982,016 bytes [3.00 TB]
Sector Sizes:     512 bytes logical, 4096 bytes physical
Rotation Rate:    5400 rpm
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   ACS-2 (minor revision not indicated)
SATA Version is:  SATA 3.0, 6.0 Gb/s (current: 3.0 Gb/s)
Local Time is:    Wed Feb  1 01:40:44 2023 UTC
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x82) Offline data collection activity
                                        was completed without error.
                                        Auto Offline Data Collection: Enabled.
Self-test execution status:      (   0) The previous self-test routine completed
                                        without error or no self-test has ever
                                        been run.
Total time to complete Offline
data collection:                (40860) seconds.
Offline data collection
capabilities:                    (0x7b) SMART execute Offline immediate.
                                        Auto Offline data collection on/off support.
                                        Suspend Offline collection upon new
                                        command.
                                        Offline surface scan supported.
                                        Self-test supported.
                                        Conveyance Self-test supported.
                                        Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                                        power-saving mode.
                                        Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                                        General Purpose Logging supported.
Short self-test routine
recommended polling time:        (   2) minutes.
Extended self-test routine
recommended polling time:        ( 410) minutes.
Conveyance self-test routine
recommended polling time:        (   5) minutes.
SCT capabilities:              (0x7035) SCT Status supported.
                                        SCT Feature Control supported.
                                        SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       140
  3 Spin_Up_Time            0x0027   175   167   021    Pre-fail  Always       -       6225
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       691
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   199   199   000    Old_age   Always       -       49
  9 Power_On_Hours          0x0032   099   099   000    Old_age   Always       -       1384
 10 Spin_Retry_Count        0x0032   100   100   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   100   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       691
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       30
193 Load_Cycle_Count        0x0032   188   188   000    Old_age   Always       -       38288
194 Temperature_Celsius     0x0022   126   113   000    Old_age   Always       -       24
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       2
198 Offline_Uncorrectable   0x0030   200   200   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0008   200   200   000    Old_age   Offline      -       0

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Short offline       Completed: read failure       90%      1383         1304826960
# 2  Short offline       Completed: read failure       90%      1381         1304826960

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.
user@debian:~$ sudo dd if=/dev/sdb of=/dev/null bs=512 count=20 skip=1304826950
20+0 records in
20+0 records out
10240 bytes (10 kB, 10 KiB) copied, 0.75492 s, 13.6 kB/s
user@debian:~$ sudo smartctl -A /dev/sdb | grep Read_Error
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       140

答案1

根据 smartctl 手册页,VALUE <= THRESH 表示产品寿命因老化或 Old_age 属性的正常老化和磨损而终止。但是,所有 Old_age 属性的 THRESH 均为 0。我该如何解释这一点?这个磁盘永远不会老化吗?

当然它会老化。但是制造商没有设定任何硬性界限。即使设定了,这些值也不能“保证”一旦达到这些值,驱动器就会发生故障。我同意 r2d3 的观点,这是一个判断问题。

如果您问我,我认为这些属性看起来都没什么问题。如果这个值在一段时间内保持稳定,那么即使是 2 个待处理扇区也不成问题,但这纯粹是基于个人经验,仅限于少数驱动器,这些驱动器只有 1 或 2 个重新分配的扇区(它们继续运行多年而没有问题)。要解决这些问题,您需要写入它们。完整的读/写表面扫描将:

  • 处理待处理的部门
  • 让你/有动力发现其他领域的问题

您可以使用扩展的 SMART 测试或 HD Sentinel 或 Western Digital 的诊断工具等工具。

您还可以使用这些工具来检查和调整电源管理以减少未来的负载周期。

答案2

是否删除磁盘取决于您的风险承受能力。

与运行多年且没有待处理扇区的磁盘相比,假定连续使用 1384 小时或 5 天是一个相当低的数字。这意味着在磁盘的早期阶段,您就会面临无法读取的扇区。

假设磁盘上的数据有某种价值,则适用以下情况:如果您不进行备份,则需要立即处理此磁盘。根据我的经验,待处理的扇区数(或更确切地说是重新分配的扇区数)要么多年来一直保持在低个位数,要么现在以越来越快的速度增加。如果您想保留该驱动器,则必须监视该数字,以避免在此属性的原始值上升时遭受数据丢失。

您不应将此值的减少视为一件好事。待处理的扇区不会得到修复。一旦磁盘收到覆盖其内容的写入命令,它们就会重新映射到健康扇区。

不幸的是,等效属性“重新分配扇区数”在这里不可见。相反,您有“重新分配事件数”,它不一定反映正在重新映射的扇区数(一个事件可能涵盖几个扇区的重新映射),因此您不能简单地查看当前待处理扇区和重新映射扇区的总和(作为总扇区损坏的衡量标准),因为您收到的是重新映射事件,而不是扇区数。

除了高负载循环次数(38288)以外,其他属性并未引起我的警觉,而高负载循环次数相对于驱动器运行的时间(1384h)来说很高。

修改原有的省电设置可以增加驱动器的使用寿命,但会消耗更多的电量。

有关此问题的更多信息请阅读 https://idle3-tools.sourceforge.net/

请忽略任何关于在互联网上查看标准化值的陈述。由于没有关于如何标准化的通用标准,标准化数字是制造商特定的,与“标准化”相反。

答案3

但是,所有 Old_age 属性的 THRESH 都为 0。

这是因为没有固定的阈值,低于该阈值驱动器即被视为“故障”。这些值只会随着时间推移而减少。

数值被设定为 100 表示“正常运行”,数值越低表示越差。高于 100 表示“良好”,低于 100 表示“不达标,但仍在运行”,低于阈值表示“该驱动器肯定已经损坏”。

您的值看起来很好:原始读取错误少,没有重新分配的扇区,两个扇区等待重新分配(可能发生,尚不需要警报)。

您的加载周期数很高,这是某些 WD Green 硬盘的一个错误。(Google 查找该如何处理,我有一个这样的硬盘。它可以修复。)

我真正的问题是我是否应该删除这个磁盘。

磁盘看起来不错,可能还能用好几年。但是,由于磁盘使用时间长,加载次数多,一定要备份(以防万一)。

相关内容