为什么 ZFS 没有对我磁盘的坏扇区采取任何措施？

Question 1

我怀疑 ATA 驱动程序在收到错误时会重试读取操作几次，然后再将错误传回文件系统驱动程序。

这意味着当 ZFS 文件系统驱动程序获得读取结果时，数据已经全部存在且正确，但可能需要比正常情况下更长的时间。当然，对于高于平均水平的延迟，没有错误计数器，因此不会记录任何内容。

事实上，Reported_Uncorrect 的 SMART 值不为 0，这让我怀疑故障的原因是磁盘本身，而不是 SATA 电缆或 SATA 控制器出现问题。

如果是这种情况，磁盘最终很可能会进一步损坏，并且无论块设备驱动程序尝试多少次重试，磁盘仍会开始无法读取。因此，我的建议是更换磁盘。

触发长时间的 SMART 测试可能会在受影响的块上失败，如果您想让错误消失，重写这些块（例如使用 dd）应该会导致磁盘换出这些扇区，但根据我的经验，一旦驱动器开始运行，最好只是更换它并完成它。

Answer

我怀疑 ATA 驱动程序在收到错误时会重试读取操作几次，然后再将错误传回文件系统驱动程序。

这意味着当 ZFS 文件系统驱动程序获得读取结果时，数据已经全部存在且正确，但可能需要比正常情况下更长的时间。当然，对于高于平均水平的延迟，没有错误计数器，因此不会记录任何内容。

事实上，Reported_Uncorrect 的 SMART 值不为 0，这让我怀疑故障的原因是磁盘本身，而不是 SATA 电缆或 SATA 控制器出现问题。

如果是这种情况，磁盘最终很可能会进一步损坏，并且无论块设备驱动程序尝试多少次重试，磁盘仍会开始无法读取。因此，我的建议是更换磁盘。

触发长时间的 SMART 测试可能会在受影响的块上失败，如果您想让错误消失，重写这些块（例如使用 dd）应该会导致磁盘换出这些扇区，但根据我的经验，一旦驱动器开始运行，最好只是更换它并完成它。

Question 2

我在 Solaris 上的 ZFS RAID 中发现了一个坏的 SCSI 磁盘。我扫描了日志文件以获取有关错误消息的信息，以收集磁盘坏的证据并让 Oracle 在硬件维护中弥补这一缺陷。我运行 grep 查找错误日志中的某些字符串，这些显示磁盘错误的行会出现在我的控制台屏幕上。当运行“Explorer”（Solaris 的系统日志和报告工具）并将其发送给 Oracle 时，他们说磁盘上没有错误。但我的屏幕历史记录中有这些错误。我检查了一下，发现它确实从磁盘日志中消失了。

事情是这样的……ZFS 承诺零文件系统错误，而不是零数据错误。当遇到严重损坏时，它会回滚事务，采取一切必要措施来确保文件系统的完整性。因此，当回滚到损坏之前的文件的早期版本时，文件更新会丢失，因此可能会发生数据丢失。但您的文件系统没有错误。

对于简单的错误，ZFS 可能可以回滚并再次重写数据，但在磁盘行为严重不良的情况下，它似乎会陷入无法恢复和写入数据的困境。如果您需要收集有关磁盘错误的证据，请将它们显示在屏幕上，而不要依赖于驻留在磁盘上的证据，因为 ZFS 事务回滚可能会重置磁盘上的数据。

Answer

我在 Solaris 上的 ZFS RAID 中发现了一个坏的 SCSI 磁盘。我扫描了日志文件以获取有关错误消息的信息，以收集磁盘坏的证据并让 Oracle 在硬件维护中弥补这一缺陷。我运行 grep 查找错误日志中的某些字符串，这些显示磁盘错误的行会出现在我的控制台屏幕上。当运行“Explorer”（Solaris 的系统日志和报告工具）并将其发送给 Oracle 时，他们说磁盘上没有错误。但我的屏幕历史记录中有这些错误。我检查了一下，发现它确实从磁盘日志中消失了。

事情是这样的……ZFS 承诺零文件系统错误，而不是零数据错误。当遇到严重损坏时，它会回滚事务，采取一切必要措施来确保文件系统的完整性。因此，当回滚到损坏之前的文件的早期版本时，文件更新会丢失，因此可能会发生数据丢失。但您的文件系统没有错误。

对于简单的错误，ZFS 可能可以回滚并再次重写数据，但在磁盘行为严重不良的情况下，它似乎会陷入无法恢复和写入数据的困境。如果您需要收集有关磁盘错误的证据，请将它们显示在屏幕上，而不要依赖于驻留在磁盘上的证据，因为 ZFS 事务回滚可能会重置磁盘上的数据。

为什么 ZFS 没有对我磁盘的坏扇区采取任何措施？

答案1

答案2

相关内容