正确启动丢失或错误故障的基于软件的 RAID1

Question

启动发生故障的 MD RAID1 阵列肯定是可能的 - 至少如果 BIOS 跳过发生故障的磁盘（如果没有，您可以简单地从幸存的磁盘手动启动）。

对于您的具体问题，您可能会遇到此问题漏洞。摘录（但阅读所有错误报告是个好主意）：

RHEL 7.6 dracut-iniqueue 脚本的默认值为 180 秒（如 RDRETRY 变量中所定义），高于 systemd 根挂载服务（90 秒）。当根位于降级的软件 RAID1 设备上时（用户被转移到紧急 shell），这可能会导致系统无法启动。请参阅 https://bugzilla.redhat.com/show_bug.cgi?id=1451660#问题示例。请注意，这种情况仅当 RAID 设备认为自己处于健康状态，但在启动过程中意外发现阵列降级时才会发生。

在启动时传递“rd.retry=30”可修复阵列启动降级问题，因为阵列在 systemctl root mount 服务超时之前被强制启动。此外，较长的 dracut rd.retry 超时与 dracut.cmdline(7) 手册页不一致，手册页中规定超时应为 30 秒。

...

附加信息：我将问题追溯到 mdadm --incremental、dracut 超时（rd.retry）和 systemctl 默认超时如何交互：

mdadm --incremental 不会启动/运行意外发现降级的阵列；

dracut 应在超过 2/3 超时值后强制启动阵列。按照当前 RHEL 默认设置，该时间是 180/3*2 = 120 秒；

systemctl 预计最多 90 秒内挂载根文件系统。如果不成功，它会中止 dracut 脚本并转到紧急 shell。90 秒低于 dracut 超时，这意味着 dracut 没有机会强制启动阵列。降低 rd.retry 超时（按照手册页的建议设置）可使 dracut 强制启动阵列，从而使 systemctl 服务成功。

作为错误应该在最近的 RHEL/CentOS 7 版本中已修复，我强烈建议您更新系统（如果可以）。否则，请尝试将其rd.retry=30作为内核启动选项传递。

Answer 1

启动发生故障的 MD RAID1 阵列肯定是可能的 - 至少如果 BIOS 跳过发生故障的磁盘（如果没有，您可以简单地从幸存的磁盘手动启动）。

对于您的具体问题，您可能会遇到此问题漏洞。摘录（但阅读所有错误报告是个好主意）：

RHEL 7.6 dracut-iniqueue 脚本的默认值为 180 秒（如 RDRETRY 变量中所定义），高于 systemd 根挂载服务（90 秒）。当根位于降级的软件 RAID1 设备上时（用户被转移到紧急 shell），这可能会导致系统无法启动。请参阅 https://bugzilla.redhat.com/show_bug.cgi?id=1451660#问题示例。请注意，这种情况仅当 RAID 设备认为自己处于健康状态，但在启动过程中意外发现阵列降级时才会发生。

在启动时传递“rd.retry=30”可修复阵列启动降级问题，因为阵列在 systemctl root mount 服务超时之前被强制启动。此外，较长的 dracut rd.retry 超时与 dracut.cmdline(7) 手册页不一致，手册页中规定超时应为 30 秒。

...

附加信息：我将问题追溯到 mdadm --incremental、dracut 超时（rd.retry）和 systemctl 默认超时如何交互：

mdadm --incremental 不会启动/运行意外发现降级的阵列；

dracut 应在超过 2/3 超时值后强制启动阵列。按照当前 RHEL 默认设置，该时间是 180/3*2 = 120 秒；

systemctl 预计最多 90 秒内挂载根文件系统。如果不成功，它会中止 dracut 脚本并转到紧急 shell。90 秒低于 dracut 超时，这意味着 dracut 没有机会强制启动阵列。降低 rd.retry 超时（按照手册页的建议设置）可使 dracut 强制启动阵列，从而使 systemctl 服务成功。

作为错误应该在最近的 RHEL/CentOS 7 版本中已修复，我强烈建议您更新系统（如果可以）。否则，请尝试将其rd.retry=30作为内核启动选项传递。

正确启动丢失或错误故障的基于软件的 RAID1

我的环境：

复制问题：

答案1

相关内容