可能吧，但首先要进行适当的测试。

Question 1

离线不可纠正的扇区

从您发布的图像以及文本中来看，已经有 16 个无法读取/无法写入的扇区。

作为过去的数据恢复工作者，我建议使用ddrescue（手册页）尽快将磁盘的健康剩余部分复制到某个外部介质。

此时，通过 SMART 以及 POH 都无关紧要。

现在，您已经使用ddrescue并可以确认确实存在问题，完全另一个问题是找出哪些文件受到影响，而您无法从 ddrescue 的日志文件中找到这些文件。

您需要成功挂载 ddrescue 映像，如下所示root：

mount -o ro,loop,offset=$(( sector size, usually 512 * an actual offset )) /path/to/ddrescue/image /mnt/point/

查找错误=受影响的文件：

cp -PRv /mnt/point/ /path/to/extracted/files/ 2>>/path/to/extracted/files/ERRORS.txt

这些只是示例。始终仔细检查路径并且不要复制粘贴。

Answer

离线不可纠正的扇区

从您发布的图像以及文本中来看，已经有 16 个无法读取/无法写入的扇区。

作为过去的数据恢复工作者，我建议使用ddrescue（手册页）尽快将磁盘的健康剩余部分复制到某个外部介质。

此时，通过 SMART 以及 POH 都无关紧要。

现在，您已经使用ddrescue并可以确认确实存在问题，完全另一个问题是找出哪些文件受到影响，而您无法从 ddrescue 的日志文件中找到这些文件。

您需要成功挂载 ddrescue 映像，如下所示root：

mount -o ro,loop,offset=$(( sector size, usually 512 * an actual offset )) /path/to/ddrescue/image /mnt/point/

查找错误=受影响的文件：

cp -PRv /mnt/point/ /path/to/extracted/files/ 2>>/path/to/extracted/files/ERRORS.txt

这些只是示例。始终仔细检查路径并且不要复制粘贴。

Question 2

驱动器本身不知道任何日期，也没有办法设置日期。它只是简单地计算自己的电量小时数，如果驱动器一次只运行几分钟，那么即使该计数器也可能是粗略的并且无法正确计数。

您当前的开机时间是 11853，因此也许您可以根据该系统每天运行的平均时间来推断日期。或者，您可能正在其他地方记录开机时间值，这样您就可以通过这种方式推断出更准确的日期。

您的驱动器具有无法读取（待处理、无法纠正）的扇区，因此您可能已经丢失了一些数据。您有可以比较的备份或可以检查的校验和吗？

就我个人而言，我会先替换它（用于ddrescue处理读取错误），然后更彻底地测试它。 SMART 报告的错误计数器始终是最小值，即驱动器在没有刻意查找的情况下遇到的问题。

因此，目前可能还有更多错误未被报告。

将来，还可以考虑运行长时间的自检（或选择性自测）因为短测试可能不足以可靠地检测读取错误。

Answer

驱动器本身不知道任何日期，也没有办法设置日期。它只是简单地计算自己的电量小时数，如果驱动器一次只运行几分钟，那么即使该计数器也可能是粗略的并且无法正确计数。

您当前的开机时间是 11853，因此也许您可以根据该系统每天运行的平均时间来推断日期。或者，您可能正在其他地方记录开机时间值，这样您就可以通过这种方式推断出更准确的日期。

您的驱动器具有无法读取（待处理、无法纠正）的扇区，因此您可能已经丢失了一些数据。您有可以比较的备份或可以检查的校验和吗？

就我个人而言，我会先替换它（用于ddrescue处理读取错误），然后更彻底地测试它。 SMART 报告的错误计数器始终是最小值，即驱动器在没有刻意查找的情况下遇到的问题。

因此，目前可能还有更多错误未被报告。

将来，还可以考虑运行长时间的自检（或选择性自测）因为短测试可能不足以可靠地检测读取错误。

Question 3

我会特别担心这一点：

  7 Seek_Error_Rate         POSR-K   082   060   030    -    4473742513

您的寻道错误率很高（过去情况更糟）。

一个块可能会发生一个不可纠正的错误，本身就不用担心，甚至可能会发生 16 个待处理的错误，但基于寻道错误率，我不会信任该驱动器，当这些驱动器发生故障时，它们通常会很快失败，而且失败的程度很大，而且令人惊讶。

运行坏块扫描，运行长时间自检，并根据结果决定要做什么。该磁盘可能适合存储系统文件（或任何其他可以轻松恢复的文件），但我可能不会在上面放置重要数据。

哪个主机的系统日志是指？/var/log/syslog？

是的。它可能会显示内部日志中的相同错误，即 LBA 0x00a03a40 处的不可纠正的 READ DMA EXT。

我正在寻找我的 sshd 的实际生命周期

  9 Power_On_Hours          -O--CK   087   087   000    -    11853

SMART 值标准化为 100（越低越差），当它们低于指示的阈值时，驱动器被视为“故障”。这就是您的驱动器仍然通过的原因：所有值都高于阈值。

它仍在工作，它有一些坏块（这可能会发生），并且一旦您重新分配这些块，它可能会在相当长的一段时间内没问题。所以你仍然可以使用它，但正如我所写，当它失败时，它可能会突然失败，因为高寻道错误率已经表明存在一些问题（可能是机械问题）。

Answer

我会特别担心这一点：

  7 Seek_Error_Rate         POSR-K   082   060   030    -    4473742513

您的寻道错误率很高（过去情况更糟）。

一个块可能会发生一个不可纠正的错误，本身就不用担心，甚至可能会发生 16 个待处理的错误，但基于寻道错误率，我不会信任该驱动器，当这些驱动器发生故障时，它们通常会很快失败，而且失败的程度很大，而且令人惊讶。

运行坏块扫描，运行长时间自检，并根据结果决定要做什么。该磁盘可能适合存储系统文件（或任何其他可以轻松恢复的文件），但我可能不会在上面放置重要数据。

哪个主机的系统日志是指？/var/log/syslog？

是的。它可能会显示内部日志中的相同错误，即 LBA 0x00a03a40 处的不可纠正的 READ DMA EXT。

我正在寻找我的 sshd 的实际生命周期

  9 Power_On_Hours          -O--CK   087   087   000    -    11853

SMART 值标准化为 100（越低越差），当它们低于指示的阈值时，驱动器被视为“故障”。这就是您的驱动器仍然通过的原因：所有值都高于阈值。

它仍在工作，它有一些坏块（这可能会发生），并且一旦您重新分配这些块，它可能会在相当长的一段时间内没问题。所以你仍然可以使用它，但正如我所写，当它失败时，它可能会突然失败，因为高寻道错误率已经表明存在一些问题（可能是机械问题）。

Question 4

可能吧，但首先要进行适当的测试。

具体来说，您需要对磁盘进行长时间的自检。以 root 身份从终端smartctl -t long /dev/sda（假设驱动器是）执行此/dev/sda操作，然后在大约一小时四十分钟后回来再次检查 GSmartControl 的输出。

这将强制磁盘固件运行它自己的内部测试套件，并且应该导致 GSmartControl 的输出发生一些变化。特别是，您正在寻找以下任何一项：

“SMART 整体健康自我评估测试结果”更改为以外的内容PASSED。
增加了生的属性 5、196、197 或 198 中任意一个的值。
输出的“SMART 扩展综合错误日志”部分中存在一个或多个其他错误。
“SMART 扩展自检日志”部分中的新条目显示列-中除 a 以外的内容LBA_of_first_error。

如果您在运行扩展自检后看到任何这些情况，您应该考虑立即更换驱动器。

如果运行扩展自检后没有看到这些情况，仍然可以考虑更换驱动器，但这可能不是作为紧迫的。不过，绝对要继续监视它。

但是记录的错误又如何呢？

该驱动器已花费 11853 小时通电（属性 9 的原始值，也可以从“SMART 扩展自检日志”推断出这一点），因此该错误很久以前就发生了，可以安全地忽略。

作为背景知识，这些内容没有列出日期，因为系统无法将这些数字映射到确切的日期。该驱动器没有内部时钟，因此它本身无法记录日期，并且系统本身不知道驱动器花费了多少时间断电（这需要绘制通电所花费的时间在到特定的日期和时间）。

离线不可纠正的扇区/当前待处理的扇区怎么样？

这些指标实际上凸显了 SMART 的一大问题。因为您只能获得当前值的时间点快照，而没有历史数据，和没有计数器上次变化发生时间的时间戳，无法区分遥远的过去发生的事件和最近发生的事件，也无法区分突然变化和稳定增加。

这些特定指标是这种差异化真正重要的指标。如果这些数字（或重新分配的扇区数）中的任何一个突然意外跳跃，或者它们稳步增加，那么这些情况就令人担忧。如果你在数百小时的过程中只得到一两个，而且大部分都保持不变，那么这并不是什么大问题（仍然值得关注，但它不会吃掉你的孩子）。

对于您的特定情况，您可能没问题（您距离典型驱动器可用作重新分配的备份扇区的距离还很远），除非数字不断变化或突然再次跳跃。

如果一切可能都很好，那么为什么你建议更换呢？

然而，这里还有其他可能涉及的事情。我发现的最大问题是寻道错误率特别高（属性 7）。这几乎永远不会为零，但它足够高以至于标准化属性值降至约 90 以下是不寻常的。在大多数情况下，这表明驱动器本身内部存在机械问题，而这又是即将发生的非常可靠的指标失败。您还有非零数量的高速写入（通常也表明存在机械问题）。

鉴于此，我会认真考虑至少开始计划更换该驱动器（如果可能的话，使用 SSD，它们解决了在笔记本电脑中使用传统硬盘驱动器的大部分问题，并且都应该加快速度）和稍微延长电池寿命）。你绝对地不过，如果您想在出现故障之前更换它，硬盘驱动器的机械故障几乎总是突然且灾难性的，而且事后通常无法实际恢复任何数据。

Answer

可能吧，但首先要进行适当的测试。

具体来说，您需要对磁盘进行长时间的自检。以 root 身份从终端smartctl -t long /dev/sda（假设驱动器是）执行此/dev/sda操作，然后在大约一小时四十分钟后回来再次检查 GSmartControl 的输出。

这将强制磁盘固件运行它自己的内部测试套件，并且应该导致 GSmartControl 的输出发生一些变化。特别是，您正在寻找以下任何一项：

“SMART 整体健康自我评估测试结果”更改为以外的内容PASSED。
增加了生的属性 5、196、197 或 198 中任意一个的值。
输出的“SMART 扩展综合错误日志”部分中存在一个或多个其他错误。
“SMART 扩展自检日志”部分中的新条目显示列-中除 a 以外的内容LBA_of_first_error。

如果您在运行扩展自检后看到任何这些情况，您应该考虑立即更换驱动器。

如果运行扩展自检后没有看到这些情况，仍然可以考虑更换驱动器，但这可能不是作为紧迫的。不过，绝对要继续监视它。

但是记录的错误又如何呢？

该驱动器已花费 11853 小时通电（属性 9 的原始值，也可以从“SMART 扩展自检日志”推断出这一点），因此该错误很久以前就发生了，可以安全地忽略。

作为背景知识，这些内容没有列出日期，因为系统无法将这些数字映射到确切的日期。该驱动器没有内部时钟，因此它本身无法记录日期，并且系统本身不知道驱动器花费了多少时间断电（这需要绘制通电所花费的时间在到特定的日期和时间）。

离线不可纠正的扇区/当前待处理的扇区怎么样？

这些指标实际上凸显了 SMART 的一大问题。因为您只能获得当前值的时间点快照，而没有历史数据，和没有计数器上次变化发生时间的时间戳，无法区分遥远的过去发生的事件和最近发生的事件，也无法区分突然变化和稳定增加。

这些特定指标是这种差异化真正重要的指标。如果这些数字（或重新分配的扇区数）中的任何一个突然意外跳跃，或者它们稳步增加，那么这些情况就令人担忧。如果你在数百小时的过程中只得到一两个，而且大部分都保持不变，那么这并不是什么大问题（仍然值得关注，但它不会吃掉你的孩子）。

对于您的特定情况，您可能没问题（您距离典型驱动器可用作重新分配的备份扇区的距离还很远），除非数字不断变化或突然再次跳跃。

如果一切可能都很好，那么为什么你建议更换呢？

然而，这里还有其他可能涉及的事情。我发现的最大问题是寻道错误率特别高（属性 7）。这几乎永远不会为零，但它足够高以至于标准化属性值降至约 90 以下是不寻常的。在大多数情况下，这表明驱动器本身内部存在机械问题，而这又是即将发生的非常可靠的指标失败。您还有非零数量的高速写入（通常也表明存在机械问题）。

鉴于此，我会认真考虑至少开始计划更换该驱动器（如果可能的话，使用 SSD，它们解决了在笔记本电脑中使用传统硬盘驱动器的大部分问题，并且都应该加快速度）和稍微延长电池寿命）。你绝对地不过，如果您想在出现故障之前更换它，硬盘驱动器的机械故障几乎总是突然且灾难性的，而且事后通常无法实际恢复任何数据。

可能吧，但首先要进行适当的测试。

答案1

离线不可纠正的扇区

答案2

答案3

答案4

可能吧，但首先要进行适当的测试。

但是记录的错误又如何呢？

离线不可纠正的扇区/当前待处理的扇区怎么样？

如果一切可能都很好，那么为什么你建议更换呢？

相关内容