当需要检查和修复大型文件系统时，如何避免停机

Question 1

现实情况是，传统文件系统并不适合多 TB 卷。例如，RedHat 推荐EXT4 文件系统不大于 50 TB；时间fsck是限制因素之一。

XFS 的情况更好，一方面因为它速度更快xfs_repair（与旧版本相比xfs_check），另一方面也得益于正在进行的项目添加在线清理。

EXT4、XFS 和其他文件系统（BTRFS 除外）可以通过对主卷进行快照并fsck针对快照（而不是主文件系统本身）运行来在线检查。这将捕获任何严重错误而无需停机，但显然需要在文件系统下安装卷管理器（具有快照功能）。顺便说一句，这是 RedHat 默认使用 LVM 的主要原因之一。

尽管如此，最知名、最可靠的具有在线清理功能的文件系统显然是 ZFS：它从一开始就被设计为高效支持非常大的阵列，并且其在线清理功能非常有效。如果有的话，它有一个相反的问题：它缺乏离线 fsck，这将有助于纠正一些罕见的错误。

Answer

现实情况是，传统文件系统并不适合多 TB 卷。例如，RedHat 推荐EXT4 文件系统不大于 50 TB；时间fsck是限制因素之一。

XFS 的情况更好，一方面因为它速度更快xfs_repair（与旧版本相比xfs_check），另一方面也得益于正在进行的项目添加在线清理。

EXT4、XFS 和其他文件系统（BTRFS 除外）可以通过对主卷进行快照并fsck针对快照（而不是主文件系统本身）运行来在线检查。这将捕获任何严重错误而无需停机，但显然需要在文件系统下安装卷管理器（具有快照功能）。顺便说一句，这是 RedHat 默认使用 LVM 的主要原因之一。

尽管如此，最知名、最可靠的具有在线清理功能的文件系统显然是 ZFS：它从一开始就被设计为高效支持非常大的阵列，并且其在线清理功能非常有效。如果有的话，它有一个相反的问题：它缺乏离线 fsck，这将有助于纠正一些罕见的错误。

Question 2

这可能是 XFS 或 ZFS 的情况。FSCK 不是 ZFS 世界中的概念。

以稳健的方式构建这样的事物需要大量的技能。如果有预算聘请专家或ZFS 顾问，您的组织应该考虑这样做。

Answer

这可能是 XFS 或 ZFS 的情况。FSCK 不是 ZFS 世界中的概念。

以稳健的方式构建这样的事物需要大量的技能。如果有预算聘请专家或ZFS 顾问，您的组织应该考虑这样做。

Question 3

通过询问组织可以接受多少停机时间来进行业务连续性分析。要比每年几次计划内停机和几个小时的停机时间做得更好，通常需要投资多节点解决方案。

尽可能多地防范停机风险。例如，无论使用哪种存储技术，数据中心发生火灾都会导致系统停机几个小时。如果必须继续提供服务，请将数据复制到另一栋大楼的其他系统。

关于文件系统，选择您可以修复和/或您的供应商可以支持的东西。EXT4 强烈建议您每隔一定数量的挂载进行一次 fsck。XFS fsck 由于日志而无法执行任何操作，但 xfs_check 处于离线状态。ZFS 没有 fsck，而是有在线清理。

在某种程度上，将数据拆分成多个卷可能有意义。可以隔离故障，可能是按组织单位或应用程序。但是，仅为了保持 fsck 速度而使用数百个小卷会增加工作量。集中管理存储的一个优点应该是减少管理工作。

为了实现多节点可用性和性能，请考虑添加另一层，即横向扩展分布式文件系统。 Ceph、Lustre、Gluster 等。与一个大型阵列完全不同。实现方式的不同之处在于它们是否使用底层文件系统，以及它们是否向用户提供块或文件协议。

Answer

通过询问组织可以接受多少停机时间来进行业务连续性分析。要比每年几次计划内停机和几个小时的停机时间做得更好，通常需要投资多节点解决方案。

尽可能多地防范停机风险。例如，无论使用哪种存储技术，数据中心发生火灾都会导致系统停机几个小时。如果必须继续提供服务，请将数据复制到另一栋大楼的其他系统。

关于文件系统，选择您可以修复和/或您的供应商可以支持的东西。EXT4 强烈建议您每隔一定数量的挂载进行一次 fsck。XFS fsck 由于日志而无法执行任何操作，但 xfs_check 处于离线状态。ZFS 没有 fsck，而是有在线清理。

在某种程度上，将数据拆分成多个卷可能有意义。可以隔离故障，可能是按组织单位或应用程序。但是，仅为了保持 fsck 速度而使用数百个小卷会增加工作量。集中管理存储的一个优点应该是减少管理工作。

为了实现多节点可用性和性能，请考虑添加另一层，即横向扩展分布式文件系统。 Ceph、Lustre、Gluster 等。与一个大型阵列完全不同。实现方式的不同之处在于它们是否使用底层文件系统，以及它们是否向用户提供块或文件协议。

相关内容