如何让 Linux 软件 RAID1 检测磁盘损坏？

Question 1

你可以强制检查（例如）md0

echo "check" > /sys/block/md0/md/sync_action

您可以使用以下命令检查测试状态

cat /sys/block/md0/md/sync_action

当它返回check检查正在运行时，一旦它返回，idle你可以做一个

cat /sys/block/$dev/md/mismatch_cnt

看看不匹配计数是否为零。许多发行版都会自动执行此检查，例如每周为您运行一次，就像大多数工业硬件 RAID 在阵列处于空闲状态时在后台持续运行此检查（它们通常称为“RAID 清理”）。请注意，根据 fedora 自动检查文件中的注释，内核中的 RAID1 写入是无缓冲的，因此即使对于健康的阵列（如果阵列已安装），不匹配计数也可能为非零。

因此，如果可能的话，在虚拟机关闭时通过执行此检查来使阵列静止可能是个好主意。

我想补充一点，我同意文档中的说法

RAID 不能也不应该防止介质上的数据损坏

RAID 旨在防止设备完全失效；防止存储设备元素中出现增量随机故障是错误检查和块重新映射的工作，这最好在控制器本身中完成。我很高兴文档警告人们 RAID 的局限性，特别是如果它是在不稳定的设备上实现的。我发现频繁使用 smartctl 检查驱动器的运行状况有助于我随时了解开始显示导致镜像不同步的错误类型的驱动器。

Answer