可能吧,但首先要进行适当的测试。

可能吧,但首先要进行适当的测试。

今天,当我在Firefox中观看视频时,突然弹出以下窗口: 在此输入图像描述

或者 GSmartContol 的输出:

smartctl 7.1 2019-12-30 r5022 [x86_64-linux-4.19.0-22-amd64] (local build)
Copyright (C) 2002-19, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family:     Seagate Laptop SSHD
Device Model:     ST500LM000-1EJ162-SSHD
Serial Number:    W3715AR9
LU WWN Device Id: 5 000c50 06e236b9f
Firmware Version: HPD3
User Capacity:    500,107,862,016 bytes [500 GB]
Sector Sizes:     512 bytes logical, 4096 bytes physical
Rotation Rate:    5400 rpm
Form Factor:      2.5 inches
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   ACS-2, ACS-3 T13/2161-D revision 3b
SATA Version is:  SATA 3.1, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is:    Sun Oct 23 14:41:09 2022 CEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled
AAM feature is:   Unavailable
APM level is:     254 (maximum performance)
Rd look-ahead is: Enabled
Write cache is:   Enabled
DSN feature is:   Unavailable
ATA Security is:  Disabled, frozen [SEC2]

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x82) Offline data collection activity
                    was completed without error.
                    Auto Offline Data Collection: Enabled.
Self-test execution status:      (   0) The previous self-test routine completed
                    without error or no self-test has ever 
                    been run.
Total time to complete Offline 
data collection:        (  634) seconds.
Offline data collection
capabilities:            (0x5b) SMART execute Offline immediate.
                    Auto Offline data collection on/off support.
                    Suspend Offline collection upon new
                    command.
                    Offline surface scan supported.
                    Self-test supported.
                    No Conveyance Self-test supported.
                    Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                    power-saving mode.
                    Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                    General Purpose Logging supported.
Short self-test routine 
recommended polling time:    (   2) minutes.
Extended self-test routine
recommended polling time:    (  99) minutes.
SCT capabilities:          (0x1081) SCT Status supported.

SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAGS    VALUE WORST THRESH FAIL RAW_VALUE
  1 Raw_Read_Error_Rate     POSR-K   118   099   006    -    195697992
  3 Spin_Up_Time            PO---K   099   099   000    -    0
  4 Start_Stop_Count        -O--CK   093   093   020    -    7676
  5 Reallocated_Sector_Ct   PO--CK   100   100   036    -    0
  7 Seek_Error_Rate         POSR-K   082   060   030    -    4473742513
  9 Power_On_Hours          -O--CK   087   087   000    -    11853
 10 Spin_Retry_Count        PO--CK   100   100   097    -    0
 12 Power_Cycle_Count       -O--CK   093   093   020    -    7668
180 Unknown_HDD_Attribute   -O-R-K   100   100   000    -    64025461
183 Runtime_Bad_Block       -O--CK   100   100   000    -    0
184 End-to-End_Error        PO--CK   100   100   097    -    0
187 Reported_Uncorrect      -O--CK   100   100   000    -    0
188 Command_Timeout         -O--CK   100   099   000    -    2
189 High_Fly_Writes         -O-RCK   063   063   000    -    37
190 Airflow_Temperature_Cel -O---K   069   055   045    -    31 (Min/Max 28/32)
191 G-Sense_Error_Rate      -O--CK   100   100   000    -    0
192 Power-Off_Retract_Count -O--CK   100   100   000    -    228
193 Load_Cycle_Count        -O--CK   097   097   000    -    7777
194 Temperature_Celsius     -O---K   031   045   000    -    31 (0 14 0 0 0)
196 Reallocated_Event_Count -O--CK   100   100   000    -    0
197 Current_Pending_Sector  -O--CK   100   100   000    -    16
198 Offline_Uncorrectable   ----CK   100   100   000    -    16
199 UDMA_CRC_Error_Count    -O--CK   200   200   000    -    0
254 Free_Fall_Sensor        -O--CK   100   100   000    -    0
                            ||||||_ K auto-keep
                            |||||__ C event count
                            ||||___ R error rate
                            |||____ S speed/performance
                            ||_____ O updated online
                            |______ P prefailure warning

General Purpose Log Directory Version 1
SMART           Log Directory Version 1 [multi-sector log support]
Address    Access  R/W   Size  Description
0x00       GPL,SL  R/O      1  Log Directory
0x01           SL  R/O      1  Summary SMART error log
0x02           SL  R/O      5  Comprehensive SMART error log
0x03       GPL     R/O      5  Ext. Comprehensive SMART error log
0x06           SL  R/O      1  SMART self-test log
0x07       GPL     R/O      1  Extended self-test log
0x09           SL  R/W      1  Selective self-test log
0x10       GPL     R/O      1  NCQ Command Error log
0x11       GPL     R/O      1  SATA Phy Event Counters log
0x21       GPL     R/O      1  Write stream error log
0x22       GPL     R/O      1  Read stream error log
0x24       GPL     R/O   1223  Current Device Internal Status Data log
0x25       GPL     R/O   1223  Saved Device Internal Status Data log
0x30       GPL,SL  R/O      9  IDENTIFY DEVICE data log
0x80-0x9f  GPL,SL  R/W     16  Host vendor specific log
0xa1       GPL,SL  VS      20  Device vendor specific log
0xa2       GPL     VS    3900  Device vendor specific log
0xa8       GPL,SL  VS     129  Device vendor specific log
0xa9       GPL,SL  VS       1  Device vendor specific log
0xab       GPL     VS       1  Device vendor specific log
0xae       GPL     VS       1  Device vendor specific log
0xb0       GPL     VS    4580  Device vendor specific log
0xb6       GPL     VS    1918  Device vendor specific log
0xbe-0xbf  GPL     VS   65535  Device vendor specific log
0xc1       GPL,SL  VS      10  Device vendor specific log
0xc2       GPL,SL  VS      50  Device vendor specific log
0xc4       GPL,SL  VS       5  Device vendor specific log
0xe0       GPL,SL  R/W      1  SCT Command/Status
0xe1       GPL,SL  R/W      1  SCT Data Transfer

SMART Extended Comprehensive Error Log Version: 1 (5 sectors)
Device Error Count: 1
    CR     = Command Register
    FEATR  = Features Register
    COUNT  = Count (was: Sector Count) Register
    LBA_48 = Upper bytes of LBA High/Mid/Low Registers ]  ATA-8
    LH     = LBA High (was: Cylinder High) Register    ]   LBA
    LM     = LBA Mid (was: Cylinder Low) Register      ] Register
    LL     = LBA Low (was: Sector Number) Register     ]
    DV     = Device (was: Device/Head) Register
    DC     = Device Control Register
    ER     = Error register
    ST     = Status register
Powered_Up_Time is measured from power on, and printed as
DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,
SS=sec, and sss=millisec. It "wraps" after 49.710 days.

Error 1 [0] occurred at disk power-on lifetime: 8134 hours (338 days + 22 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER -- ST COUNT  LBA_48  LH LM LL DV DC
  -- -- -- == -- == == == -- -- -- -- --
  40 -- 51 00 00 00 00 00 a0 3a 40 00 00  Error: UNC at LBA = 0x00a03a40 = 10500672

  Commands leading to the command that caused the error were:
  CR FEATR COUNT  LBA_48  LH LM LL DV DC  Powered_Up_Time  Command/Feature_Name
  -- == -- == -- == == == -- -- -- -- --  ---------------  --------------------
  25 00 00 00 2a 00 00 00 a0 3a 40 e0 00     01:31:49.827  READ DMA EXT
  25 00 00 00 35 00 00 00 a0 42 0b e0 00     01:31:49.348  READ DMA EXT
  25 00 00 00 0b 00 00 00 a0 42 00 e0 00     01:31:49.345  READ DMA EXT
  25 00 00 00 15 00 00 03 93 ac 6b e0 00     01:31:49.342  READ DMA EXT
  25 00 00 00 2b 00 00 03 93 ac 40 e0 00     01:31:49.339  READ DMA EXT

SMART Extended Self-test Log Version: 1 (1 sectors)
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Short offline       Completed without error       00%     11852         -
# 2  Short offline       Completed without error       00%     11847         -
# 3  Short offline       Completed without error       00%     11844         -
# 4  Short offline       Completed without error       00%     11835         -
# 5  Short offline       Completed without error       00%     11830         -
# 6  Short offline       Completed without error       00%     11823         -
# 7  Short offline       Completed without error       00%     11818         -
# 8  Short offline       Completed without error       00%     11814         -
# 9  Short offline       Completed without error       00%     11806         -
#10  Short offline       Completed without error       00%     11801         -
#11  Short offline       Completed without error       00%     11792         -
#12  Short offline       Completed without error       00%     11790         -
#13  Short offline       Completed without error       00%     11780         -
#14  Short offline       Completed without error       00%     11772         -
#15  Short offline       Completed without error       00%     11765         -
#16  Short offline       Completed without error       00%     11756         -
#17  Short offline       Completed without error       00%     11751         -
#18  Short offline       Completed without error       00%     11747         -
#19  Short offline       Completed without error       00%     11740         -

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

SCT Status Version:                  3
SCT Version (vendor specific):       522 (0x020a)
Device State:                        Active (0)
Current Temperature:                    31 Celsius
Power Cycle Min/Max Temperature:     25/32 Celsius
Lifetime    Min/Max Temperature:     16/44 Celsius
Under/Over Temperature Limit Count:   0/2

SCT Data Table command not supported

SCT Error Recovery Control command not supported

Device Statistics (GP/SMART Log 0x04) not supported

SATA Phy Event Counters (GP Log 0x11)
ID      Size     Value  Description
0x000a  2            3  Device-to-host register FISes sent due to a COMRESET
0x0001  2            0  Command failed due to ICRC error
0x0003  2            0  R_ERR response for device-to-host data FIS
0x0004  2            0  R_ERR response for host-to-device data FIS
0x0006  2            0  R_ERR response for device-to-host non-data FIS
0x0007  2            0  R_ERR response for host-to-device non-data FIS

今天,当我启动 Linux 时,它没有启动。所以我重新启动了启动,它工作没有问题。这是在出现此错误之前。不知道此启动问题是否与 smartmontools 错误有关。启动问题是在我收到此错误警告之前发生的。

令人困惑: 在 reoprt 中有一行“磁盘开机寿命时发生错误 1 ​​[0]:8134 小时(338 天 + 22 小时)”。但没有日期。我的期望是,会有一个发生此错误的日期,以便我可以显示今天的日期,并且可以明确地将错误分配给今天的日期。由于我没有在 txt 文件的整个输出中找到日期,因此我正在寻找 sshd 的实际生命周期,因为据说错误发生在 8134h。所以我的期望是,我可以在某个地方找到我的 sshd 到目前为止已经运行的小时数。但我也没有发现这个。

哪个主机的系统日志是指?也许是这个:/var/log/syslog?

如果是:这是: https://workupload.com/file/NVD2gpdrvHp

但我的主要问题是:我的 sshd 很快就会死掉的风险是否很高?

据说,硬盘健康状态发生了变化。但我现在在哪里可以找到当前的健康状况呢?

谢谢。

答案1

离线不可纠正的扇区

从您发布的图像以及文本中来看,已经有 16 个无法读取/无法写入的扇区。

作为过去的数据恢复工作者,我建议使用ddrescue(手册页)尽快将磁盘的健康剩余部分复制到某个外部介质。

此时,通过 SMART 以及 POH 都无关紧要。


现在,您已经使用ddrescue并可以确认确实存在问题,完全另一个问题是找出哪些文件受到影响,而您无法从 ddrescue 的日志文件中找到这些文件。

您需要成功挂载 ddrescue 映像,如下所示root

mount -o ro,loop,offset=$(( sector size, usually 512 * an actual offset )) /path/to/ddrescue/image /mnt/point/

查找错误=受影响的文件:

cp -PRv /mnt/point/ /path/to/extracted/files/ 2>>/path/to/extracted/files/ERRORS.txt

这些只是示例。始终仔细检查路径并且不要复制粘贴。

答案2

驱动器本身不知道任何日期,也没有办法设置日期。它只是简单地计算自己的电量小时数,如果驱动器一次只运行几分钟,那么即使该计数器也可能是粗略的并且无法正确计数。

您当前的开机时间是 11853,因此也许您可以根据该系统每天运行的平均时间来推断日期。或者,您可能正在其他地方记录开机时间值,这样您就可以通过这种方式推断出更准确的日期。

您的驱动器具有无法读取(待处理、无法纠正)的扇区,因此您可能已经丢失了一些数据。您有可以比较的备份或可以检查的校验和吗?

就我个人而言,我会先替换它(用于ddrescue处理读取错误),然后更彻底地测试它。 SMART 报告的错误计数器始终是最小值,即驱动器在没有刻意查找的情况下遇到的问题。

因此,目前可能还有更多错误未被报告。

将来,还可以考虑运行长时间的自检(或选择性自测)因为短测试可能不足以可靠地检测读取错误。

答案3

我会特别担心这一点:

  7 Seek_Error_Rate         POSR-K   082   060   030    -    4473742513

您的寻道错误率很高(过去情况更糟)。

一个块可能会发生一个不可纠正的错误,本身就不用担心,甚至可能会发生 16 个待处理的错误,但基于寻道错误率,我不会信任该驱动器,当这些驱动器发生故障时,它们通常会很快失败,而且失败的程度很大,而且令人惊讶。

运行坏块扫描,运行长时间自检,并根据结果决定要做什么。该磁盘可能适合存储系统文件(或任何其他可以轻松恢复的文件),但我可能不会在上面放置重要数据。

哪个主机的系统日志是指?/var/log/syslog

是的。它可能会显示内部日志中的相同错误,即 LBA 0x00a03a40 处的不可纠正的 READ DMA EXT。

我正在寻找我的 sshd 的实际生命周期

  9 Power_On_Hours          -O--CK   087   087   000    -    11853

SMART 值标准化为 100(越低越差),当它们低于指示的阈值时,驱动器被视为“故障”。这就是您的驱动器仍然通过的原因:所有值都高于阈值。

它仍在工作,它有一些坏块(这可能会发生),并且一旦您重新分配这些块,它可能会在相当长的一段时间内没问题。所以你仍然可以使用它,但正如我所写,当它失败时,它可能会突然失败,因为高寻道错误率已经表明存在一些问题(可能是机械问题)。

答案4

可能吧,但首先要进行适当的测试。

具体来说,您需要对磁盘进行长时间的自检。以 root 身份从终端smartctl -t long /dev/sda(假设驱动器是)执行此/dev/sda操作,然后在大约一小时四十分钟后回来再次检查 GSmartControl 的输出。

这将强制磁盘固件运行它自己的内部测试套件,并且应该导致 GSmartControl 的输出发生一些变化。特别是,您正在寻找以下任何一项:

  • “SMART 整体健康自我评估测试结果”更改为 以外的内容PASSED
  • 增加了生的属性 5、196、197 或 198 中任意一个的值。
  • 输出的“SMART 扩展综合错误日志”部分中存在一个或多个其他错误。
  • “SMART 扩展自检日志”部分中的新条目显示列-中除 a 以外的内容LBA_of_first_error

如果您在运行扩展自检后看到任何这些情况,您应该考虑立即更换驱动器。

如果运行扩展自检后没有看到这些情况,仍然可以考虑更换驱动器,但这可能不是作为紧迫的。不过,绝对要继续监视它。

但是记录的错误又如何呢?

该驱动器已花费 11853 小时通电(属性 9 的原始值,也可以从“SMART 扩展自检日志”推断出这一点),因此该错误很久以前就发生了,可以安全地忽略。

作为背景知识,这些内容没有列出日期,因为系统无法将这些数字映射到确切的日期。该驱动器没有内部时钟,因此它本身无法记录日期,并且系统本身不知道驱动器花费了多少时间断电(这需要绘制通电所花费的时间到特定的日期和时间)。

离线不可纠正的扇区/当前待处理的扇区怎么样?

这些指标实际上凸显了 SMART 的一大问题。因为您只能获得当前值的时间点快照,而没有历史数据,没有计数器上次变化发生时间的时间戳,无法区分遥远的过去发生的事件和最近发生的事件,也无法区分突然变化和稳定增加。

这些特定指标是这种差异化真正重要的指标。如果这些数字(或重新分配的扇区数)中的任何一个突然意外跳跃,或者它们稳步增加,那么这些情况就令人担忧。如果你在数百小时的过程中只得到一两个,而且大部分都保持不变,那么这并不是什么大问题(仍然值得关注,但它不会吃掉你的孩子)。

对于您的特定情况,您可能没问题(您距离典型驱动器可用作重新分配的备份扇区的距离还很远),除非数字不断变化或突然再次跳跃。

如果一切可能都很好,那么为什么你建议更换呢?

然而,这里还有其他可能涉及的事情。我发现的最大问题是寻道错误率特别高(属性 7)。这几乎永远不会为零,但它足够高以至于标准化属性值降至约 90 以下是不寻常的。在大多数情况下,这表明驱动器本身内部存在机械问题,而这又是即将发生的非常可靠的指标失败。您还有非零数量的高速写入(通常也表明存在机械问题)。

鉴于此,我会认真考虑至少开始计划更换该驱动器(如果可能的话,使用 SSD,它们解决了在笔记本电脑中使用传统硬盘驱动器的大部分问题,并且都应该加快速度)稍微延长电池寿命)。你绝对地不过,如果您想在出现故障之前更换它,硬盘驱动器的机械故障几乎总是突然且灾难性的,而且事后通常无法实际恢复任何数据。

相关内容