硬盘读取错误...停止了吗？

Question 1

如果驱动器表面的某个特定物理区域出现故障，那么在成功映射这些扇区之前，当您尝试读取写入该区域的任何数据时，您将收到无法恢复的读取错误。驱动器知道这些扇区是坏的（在访问这些扇区失败之后），但无法重新映射这些扇区，因为它们已经保存了数据。如果您格式化驱动器或覆盖“坏”扇区，那么驱动器将有机会映射出坏扇区。

一旦坏扇区被映射出来，并且只要更多的驱动器表面没有出现故障，就处于良好的状态。

我对当前驱动器的驱动器故障模型了解不够，不知道介质表面的某个部分损坏与问题蔓延或再次发生之间是否存在很大关联。如果没有关联，那么一旦坏扇区被映射出来，你就没问题了。如果有是那么这就是驱动力终结的开始。

Answer

如果驱动器表面的某个特定物理区域出现故障，那么在成功映射这些扇区之前，当您尝试读取写入该区域的任何数据时，您将收到无法恢复的读取错误。驱动器知道这些扇区是坏的（在访问这些扇区失败之后），但无法重新映射这些扇区，因为它们已经保存了数据。如果您格式化驱动器或覆盖“坏”扇区，那么驱动器将有机会映射出坏扇区。

一旦坏扇区被映射出来，并且只要更多的驱动器表面没有出现故障，就处于良好的状态。

我对当前驱动器的驱动器故障模型了解不够，不知道介质表面的某个部分损坏与问题蔓延或再次发生之间是否存在很大关联。如果没有关联，那么一旦坏扇区被映射出来，你就没问题了。如果有是那么这就是驱动力终结的开始。

Question 2

大多数现代驱动器都会“矢量化”损坏的块。驱动器有一个备用块池，固件使用这些块替换驱动器已知的任何坏块。当驱动器无法读取某个块时，它无法执行这种重新映射，因为它无法提供正确的数据。它只会返回“读取错误”。它会将该块标记为坏块，因此如果该块确实读取正确，则该块将被矢量化，并将正确的数据写入替换块。如果操作系统曾经写入处于“矢量化待处理”状态的块，则该块将被矢量化，并将数据写入替换块。

Linux 软件 raid 会在从设备获取读取错误时，从阵列中的其他元素获取正确数据，然后尝试再次写入坏块。因此，如果写入成功，则数据是安全的，否则，驱动器只会执行上述操作，对块进行向量化，然后执行写入。因此，在 raid 系统的帮助下，驱动器已经自行修复！

假设此类事件相当罕见，那么继续进行可能是安全的。如果使用了太多替换块，则驱动器可能有问题。可以将多少替换块引导到备用块是有限制的，这取决于驱动器的功能。

Answer

大多数现代驱动器都会“矢量化”损坏的块。驱动器有一个备用块池，固件使用这些块替换驱动器已知的任何坏块。当驱动器无法读取某个块时，它无法执行这种重新映射，因为它无法提供正确的数据。它只会返回“读取错误”。它会将该块标记为坏块，因此如果该块确实读取正确，则该块将被矢量化，并将正确的数据写入替换块。如果操作系统曾经写入处于“矢量化待处理”状态的块，则该块将被矢量化，并将数据写入替换块。

Linux 软件 raid 会在从设备获取读取错误时，从阵列中的其他元素获取正确数据，然后尝试再次写入坏块。因此，如果写入成功，则数据是安全的，否则，驱动器只会执行上述操作，对块进行向量化，然后执行写入。因此，在 raid 系统的帮助下，驱动器已经自行修复！

假设此类事件相当罕见，那么继续进行可能是安全的。如果使用了太多替换块，则驱动器可能有问题。可以将多少替换块引导到备用块是有限制的，这取决于驱动器的功能。

Question 3

是的，我也遇到过这种情况，而且情况非常相似。就我而言，是一块“消费级”西部数据 1TB“绿色”硬盘 (WD10EARS) 对我耍了这种花招。SMARTCurrent_Pending_Sector原始值从 0 变为 6，然后变为 8，促使 SMART 监控守护程序向我发送了一些不祥的电子邮件。

我从阵列中mdadm --fail取出--remove驱动器，并对其进行了非破坏性检查badblocks，是的，显然有超过 20 个坏块。大约一天后，替换驱动器到达，我修复了阵列，生活继续。

不久之后，出于无聊，我重新运行了badblocks“故障”驱动器，看看情况是否恶化。相反，驱动器已经完全“修复”了自己：没有坏块！我摇摇头，擦了擦，把它放在一边，等待回收或捐赠。

教训：不要在服务器中使用消费级驱动器，除非您愿意并能够忍受各种怪异和不可靠性。推论：不要在服务器组件上贪便宜，因为您最终还是要为它们付出代价，花费额外的时间和精力。

Answer