md-device 上的缓冲区 I/O 错误 - 无法识别故障驱动器

Question

更新-8/22

如果你想快速解决这个问题，只需更换两个驱动器 具有最差的 smartctl 统计数据并重新评估。一旦您用完了保留块，您的驱动器就会 EOL。考虑到我们一次购买所有这些，它们往往会在同一时间发生故障。因此，坏块固定在哪一个并不重要。一旦您更换了最严重的两个违规者（这意味着更换一个并重新同步并重复），您将提高阵列的整体健康状况，可能更换了有问题的磁盘，并大大降低了丢失所有内容的双重故障风险。

最终，您的数据价值将超过几百美元。

结束更新-8/22

更新-8/21

Toni 是的，你原来的帖子还有改进的空间。考虑到这些事实，这就是我得出的结论。直到现在才清楚你已经遭受了数据损坏。

如果您将标题包含在 smartctl 输出中，将会很有帮助。这在 scsi 上更容易，sg_reassign 会告诉您还剩下多少个空闲块需要重新分配，一旦该值变为零，您就完成了。看到 smartctl 在几个类别中报告“prefail”，听起来您也很快就完成了。

很快您将遇到硬媒体错误，MD 将踢出驱动器。在此期间，fsck 会是一个好主意。当驱动器写入失败时，它们会从空闲块池中重新分配目标，当您用完时，它将成为不可恢复的媒体错误。

另外，在 MD 上启用“磁盘清理器”并每周按 cron 运行它，它将读取并重写每个扇区并在它成为真正的问题之前阻止它。请参阅内核中的文档/md.txt。

[磁盘清理器示例] https://www.ogre.com/node/384

您仍然必须运行所有驱动器的 smartmon（每天一次，非工作时间），解析输出，并创建警报以避免这个问题。

各位，这就是硬件突袭能为您做的事情。讽刺的是，我们拥有提供更好 MD 体验的所有工具，但没有人将它们整合成一个集成解决方案。

您几乎已经到了静默数据损坏的最后阶段。fsck 可能会有所帮助，但实际上最好的做法是参考您的备份（您保留了备份，对吧？RAID 不是备份）并准备让此 RAID 开始崩溃。

然后你就会找到坏的磁盘。

对不起。

结束更新-8/21

首先，您是否阅读过有关所使用的选项的 badblocks 手册页？

   -w     Use write-mode test. With this option, badblocks scans for bad  blocks  by  writing
          some  patterns (0xaa, 0x55, 0xff, 0x00) on every block of the device, reading every
          block and comparing the contents.  This option may not  be  combined  with  the  -n
          option, as they are mutually exclusive.

所以你的数据没了，-n 是非破坏性版本。也许你真正做的是从阵列中取出一个磁盘，在其上运行坏块，然后重新插入它？请澄清一下。

您不知道哪个磁盘一开始就出现故障，这说明它不是 MD raid 阵列。因此，无论存在什么不存在的 lvm“raid”工具来帮助您从这个简单的故障中恢复，您都需要弄清楚。

我想说的是，大多数用户都选择了 MD RAID 解决方案。而剩下的人则会被“这是什么玩意？”或“哦，这是 LVM，我应该这么做，对吧？”所困扰，最后就落得了现在的境地。我用糟糕的管理工具实施 RAID，这实际上带来了比你通过构建 RAID 6 尝试缓解的风险更大的风险。

这不是你的错，你不知道。坦白说，他们应该因为这个原因禁用这个东西。

关于修复坏块。您可以通过以下方式进行修复使机器脱机并启动实时 USB 驱动器并执行下列修复程序之一。

https://sites.google.com/site/itmyshare/storage/storage-disk/bad-blocks-how-to

http://linuxtroops.blogspot.com/2013/07/how-to-find-bad-block-on-linux-harddisk.html

至于这个扇区在你的阵列中的位置。好吧，你必须考虑奇偶校验旋转，这是一个 PITA。我建议你简单地验证每个驱动器，直到找到问题。

您可以通过在 MD 中启用“磁盘清理”来帮助防止将来出现这种情况，该功能会在维护窗口中读取并重写每个扇区，以准确发现此类问题并可能修复它们。

我希望这有帮助。

Answer 1