ZFS-HA 池因元数据损坏而发生故障

Question 1

最后我求助于-X的选项import。这通过以 2GB/s 的速度读取所有磁盘约 36 小时来锻炼。之后，没有出现错误消息，文件系统已安装并且现在再次完全可访问。到目前为止，没有检测到任何数据不一致（zfs scrub仍在运行）。感谢您的所有回复。

然而，对于未来的读者，我想传递警告关于-X手册页中的选项：此选项对于您的池的健康极其危险，只能作为最后的手段使用。

Answer

最后我求助于-X的选项import。这通过以 2GB/s 的速度读取所有磁盘约 36 小时来锻炼。之后，没有出现错误消息，文件系统已安装并且现在再次完全可访问。到目前为止，没有检测到任何数据不一致（zfs scrub仍在运行）。感谢您的所有回复。

然而，对于未来的读者，我想传递警告关于-X手册页中的选项：此选项对于您的池的健康极其危险，只能作为最后的手段使用。

Question 2

似乎上游没有太多的选择（这是来自Oracle Solaris ZFS 故障排除和池恢复文档中指出，这zpool import -F是你唯一的选择，除非聘请 ZFS 专家来真正调查元数据是如何损坏的）：

如果无法通过上面描述的池恢复方法恢复池，则必须从备份副本中恢复池及其所有数据。

我不认为 OpenZFS 联盟能带来多少改变现状的成果。这确实是个令人悲伤的消息。

PS 这与池出现这种情况的原因无关，但您不认为创建 10 个磁盘宽的阵列本身就是问题吗？即使有 2 个以上的备用磁盘。冷数据等等，你知道的。

Answer

似乎上游没有太多的选择（这是来自Oracle Solaris ZFS 故障排除和池恢复文档中指出，这zpool import -F是你唯一的选择，除非聘请 ZFS 专家来真正调查元数据是如何损坏的）：

如果无法通过上面描述的池恢复方法恢复池，则必须从备份副本中恢复池及其所有数据。

我不认为 OpenZFS 联盟能带来多少改变现状的成果。这确实是个令人悲伤的消息。

PS 这与池出现这种情况的原因无关，但您不认为创建 10 个磁盘宽的阵列本身就是问题吗？即使有 2 个以上的备用磁盘。冷数据等等，你知道的。

Question 3

硬件详情是什么？服务器、磁盘、机箱和控制器的品牌和型号。

我将禁用所有 HA 功能并专注于一个系统上的工作。

dmesg另外，完成此操作后您会看到什么？

Answer

硬件详情是什么？服务器、磁盘、机箱和控制器的品牌和型号。

我将禁用所有 HA 功能并专注于一个系统上的工作。

dmesg另外，完成此操作后您会看到什么？

Question 4

为了将来参考，当所有其他方法都失败时，您可以尝试以下命令：

zpool import -F“pool-name”，然后按顺序输入 -FX，然后输入 -T。（首先备份原始媒体。）

PS. T 代表终结者。

Answer

为了将来参考，当所有其他方法都失败时，您可以尝试以下命令：

zpool import -F“pool-name”，然后按顺序输入 -FX，然后输入 -T。（首先备份原始媒体。）

PS. T 代表终结者。

相关内容