尝试删除/诊断 SMART 数据中的单个 Current_Pending_Sector

Question 1

读取失败时，扇区被标记为待处理。如果后续写入失败，待处理扇区将被标记为重新分配。如果写入成功，则将其从当前待处理扇区中移除并假定为正常。（确切的行为可能略有不同，我稍后会详细介绍，但目前这是一个足够接近的近似值。）

当你运行时badblocks -w，每个模式首先被写入，然后读取。写入不稳定扇区可能会成功，但后续读取会失败，这会再次将其添加到待处理扇区列表中。我会尝试使用将零写入整个磁盘dd if=/dev/zero of=/dev/sda，检查 SMART 状态，然后使用读取整个磁盘dd if=/dev/sda of=/dev/null并再次检查 SMART 状态。

更新：

根据您之前的结果badblocks -w，我原本预计写入整个磁盘后待处理的扇区会被清除。但由于这并没有发生，因此可以肯定地说，该磁盘的表现不符合预期。

让我们回顾一下当前待处理部门数量：

“不稳定”扇区的数量（由于不可恢复的读取错误而等待重新映射）。如果随后成功读取了不稳定扇区，则重新映射该扇区，并减少此值。扇区上的读取错误不会立即重新映射该扇区（因为无法读取正确的值，因此不知道要重新映射的值，而且该值可能稍后才可读）；相反，驱动器固件会记住需要重新映射该扇区，并在下次写入时重新映射它。[29] 但是，有些驱动器在写入时不会立即重新映射此类扇区；相反，驱动器将首先尝试写入问题扇区，如果写入操作成功，则该扇区将被标记为良好（在这种情况下，“重新分配事件计数”（0xC4）不会增加）。这是一个严重的缺点，因为如果这样的驱动器包含边缘扇区，这些扇区仅在成功写入操作后经过一段时间后才持续失败，那么驱动器将永远不会重新映射这些问题扇区。

现在让我们回顾一下要点：

...驱动器固件会记住该扇区需要重新映射，并会在下次写入时重新映射它。[29] 但是有些驱动器在写入时不会立即重新映射这些扇区；相反，驱动器会首先尝试写入问题扇区，如果写入操作成功，则该扇区将被标记为良好。

换句话说，待处理的扇区应该立即被重新映射，或者驱动器应该尝试写入该扇区，并且应该发生以下两件事之一：

写入失败，在这种情况下应该重新映射待处理的扇区。
写入成功，在这种情况下待处理的扇区应该已经被清除（“标记为良好”）。

我之前暗示过这一点，但维基百科对当前待处理部门的描述表明磁盘完全写入后，当前待处理扇区数应始终为零。由于这里的情况并非如此，我们可以得出结论：（a）维基百科是错误的（或者至少对您的驱动器来说是不正确的），或者（b）驱动器的固件无法正确处理此错误状态（我认为这是一个固件错误）。

如果随后成功读取不稳定扇区，则重新映射该扇区并减少该值。

由于读取整个驱动器后，当前待处理扇区数仍未改变，因此我们可以断言 (a) 无法成功读取扇区，或者 (b) 成功读取扇区并将其标记为良好，但读取其他扇区时出错。但由于读取后重新分配的扇区数仍为 0，因此我们可以排除 (b) 的可能性，并得出结论，待处理扇区仍然无法读取。

此时，了解硬盘是否记录了任何新的 SMART 错误会很有帮助。我的下一个建议是检查 Seagate 是否有固件升级为您的驱动器，但看起来他们没有。

虽然我建议不要继续使用此驱动器，但听起来你可能愿意接受所涉及的风险（即，它可能继续出现异常和/或进一步降级或发生灾难性故障）。在这种情况下，你可以尝试安装 Linux，从救援 CD 启动，然后（在文件系统未挂载的情况下）使用e2fsck -l 文件名手动将相应块标记为坏块。（只需确保您保留良好的备份！）

e2fsck -l 文件名

将 filename 指定的文件中列出的块号添加到坏块列表中。此文件的格式与 badblocks(8) 程序生成的格式相同。请注意，块号基于文件系统的块大小。因此，必须为 badblocks(8) 提供文件系统的块大小才能获得正确的结果。因此，使用 e2fsck 的 -c 选项更简单、更安全，因为它将确保将正确的参数传递给 badblocks 程序。

（请注意，e2fsck -c是首选e2fsck -l filename，您甚至可能想尝试它，但根据您迄今为止的结果，我非常怀疑 e2fsck -c 是否会发现任何坏块。）

当然，您必须进行一些算术运算，将故障扇区的 LBA（由 SMART 提供）转换为文件系统块号。坏块解决方法提供了一个方便的公式：

  b = (int)((L-S)*512/B)
where:
b = File System block number
B = File system block size in bytes
L = LBA of bad sector
S = Starting sector of partition as shown by fdisk -lu
and (int) denotes the integer part.

本指南还包含使用此公式的完整示例。安装操作系统后，您可以使用以下命令确认文件是否占用不稳定扇区调试文件系统（请参阅 HowTo 以获得详细说明）。

另一种选择：围绕疑似坏块进行分区 安装操作系统时，您也可以尝试在错误周围进行分区。如果我的计算正确，错误大约在 81.589 MB，因此可以将 /boot 弄小一点，并在扇区 167095 之后开始下一个分区，或者完全跳过前 82 MB 左右。

ABRT 235018779 不幸的是，对于扇区 235018779 处的 ABRT 错误，我们只能推测，但 ATA8-ACS 规范为我们提供了一些线索。

来自工作草案 AT 附件 8 - ATA/ATAPI 命令集 (ATA8-ACS)：

6.2.1 中止 (ABRT) 错误位 2。如果不支持该命令，则应将中止设置为 1。如果设备无法完成命令请求的操作，则可将中止设置为 1。如果 IDNF 未设置为 1，则如果请求的地址超出用户可访问地址范围，也应将中止设置为 1。

查看导致 ABRT 的命令（几个读取扇区，然后重新校准和重新初始化）...

如果不支持该命令，则应将 Abort 设置为 1。- 这似乎不太可能。

如果设备无法完成命令请求的操作，则可以将 Abort 设置为 1。- 也许重新分配扇区的 P 列表将用户可访问的地址移动得足够远，以至于用户可访问的地址转换为扇区 235018779，并且读取操作无法完成（出于什么原因，我们不知道……但没有 CRC 错误，所以我认为我们不能得出扇区 235018779 是坏的结论）。

如果 IDNF 未设置为 1，并且请求的地址超出了用户可访问地址范围，则也应将 Abort 设置为 1。- 在我看来，这种情况极有可能发生，我可能会将其解释为软件错误（可能是您的操作系统或您正在运行的某个程序）。在这种情况下，这并不是硬盘即将崩溃的征兆。

万一您还没有厌倦运行诊断程序......

您可以再试smartctl -t long /dev/sda一次，看看它是否会在 SMART 日志中产生更多错误，或者您可以将此错误保留为未解决X档案;) 并定期检查 SMART 日志以查看是否再次发生这种情况。无论如何，如果您继续使用该驱动器而不让它重新分配或清除待处理扇区，那么您已经处于危险之中。

使用校验和文件系统

为了更加安全，您可能需要考虑使用校验和文件系统（例如 ZFS 或 btrfs）来帮助防止低级数据损坏。如果您有任何无法轻易复制的内容，请不要忘记经常进行备份。

Answer