zfs 池性能下降与出现故障

Question

一般来说，磁盘性能下降是指更好的形状比失败的形状要好。

从zpool 手册页（略微重新格式化）：

降级：校验和错误的数量超出可接受的水平，设备降级，表明可能存在问题。ZFS 会根据需要继续使用该设备

失败的：I/O 错误数量超出可接受水平，设备出现故障，无法继续使用

在您的具体案例中，scrub发现一个磁盘上有许多读取和校验和错误，ZFS 开始修复受影响的磁盘。与此同时，ZED（ZFS 事件守护进程）注意到校验和错误的爆发，并降级了磁盘以避免使用/对其施加压力。

当刷牙结束后，我建议你去zpool clear游泳池跑步其他 zfs scrub。如果第二次清理未发现任何错误，您可以继续使用该池，但考虑到当前清理中出现多少错误，我会尽快更换磁盘。

如果您有充分理由相信磁盘本身没有问题，则应进行分析dmesg和smartctl --all输出以确定根本错误原因。例如：我有一个磁盘，它本身没问题，但由于电源/电缆噪音大而产生许多实际错误。

无论如何，黄金法则始终适用：确保对池数据进行最新备份。

Answer 1

一般来说，磁盘性能下降是指更好的形状比失败的形状要好。

从zpool 手册页（略微重新格式化）：

降级：校验和错误的数量超出可接受的水平，设备降级，表明可能存在问题。ZFS 会根据需要继续使用该设备

失败的：I/O 错误数量超出可接受水平，设备出现故障，无法继续使用

在您的具体案例中，scrub发现一个磁盘上有许多读取和校验和错误，ZFS 开始修复受影响的磁盘。与此同时，ZED（ZFS 事件守护进程）注意到校验和错误的爆发，并降级了磁盘以避免使用/对其施加压力。

当刷牙结束后，我建议你去zpool clear游泳池跑步其他 zfs scrub。如果第二次清理未发现任何错误，您可以继续使用该池，但考虑到当前清理中出现多少错误，我会尽快更换磁盘。

如果您有充分理由相信磁盘本身没有问题，则应进行分析dmesg和smartctl --all输出以确定根本错误原因。例如：我有一个磁盘，它本身没问题，但由于电源/电缆噪音大而产生许多实际错误。

无论如何，黄金法则始终适用：确保对池数据进行最新备份。

相关内容