50TB 卷上的 zpool 导入需要很长时间:它在做什么?

50TB 卷上的 zpool 导入需要很长时间:它在做什么?

我们有一个由两个 OpenSolaris 2009.06 NFS 服务器管理的光纤通道 san。

  • 服务器 1 管理 3 个小卷(300GB 15K RPM 驱动器)。运行良好。
  • 服务器 2 正在管理 1 个大型卷,其中包含 32 个驱动器(2TB 7200 RPM 驱动器)RAID6。总大小为 50TB。
  • 两台服务器都具有 Zpool 版本 14 和 ZFS 版本 3。

几个月前安装了 50TB 的服务器,运行良好。用户占用了 2TB。我做了一个小实验(创建了 1000 个文件系统,每个文件系统都有 24 个快照)。创建、使用快照访问文件系统以及 NFS 安装其中一些文件系统时一切都很顺利。

当我尝试销毁 1000 个文件系统时,第一个文件系统花了几分钟,然后失败并报告文件系统正在使用中。我发出了系统关闭命令,但花了 10 多分钟。我没有再等,就关闭了电源。

现在启动时,OpenSolaris 挂起。32 个驱动器上的指示灯快速闪烁。我将其放置了 24 小时 - 仍然闪烁,但没有进展。

我在创建 zpool 之前启动了系统快照并尝试导入 zpool。

pfexec zpool import bigdata

相同情况:LED 闪烁并且导入永远挂起。

跟踪“zpool import”过程仅显示 ioctl 系统调用:

dtrace -n syscall:::entry'/pid == 31337/{ @syscalls[probefunc] = count(); }'

ioctl                          2499

有没有办法来解决这个问题?编辑:是的。将 OpenSolaris 升级到 svn_134b 就可以了:

pkg publisher # shows opensolaris.org
beadm create opensolaris-updated-on-2010-12-17
beadm mount opensolaris-updated-on-2010-12-17 /mnt
pkg -R /mnt image-update
beadm unmount opensolaris-updated-on-2010-12-17
beadm activate opensolaris-updated-on-2010-12-17
init 6

现在我有 zfs 版本 3。Bigdata zpool 保持在版本 14。并且它已重新投入生产!

但是,在超过 24 小时的繁忙 I/O 访问下(软件升级之前),它都在做什么呢?

答案1

使用 ZFS,您确实希望让它直接操作磁盘,因为它可以提高并发性。您给它的单个 50TB 磁盘是一个瓶颈。

该 DTrace 脚本仅跟踪系统调用。实际操作发生在内核中,如果您想查看哪些程序占用了最多的 CPU,请使用 DTrace Toolkit 中的“hotkernel”脚本。

导入池时,ZFS 会从磁盘读取配置并进行验证。导入池后,它将开始挂载您创建的所有 1000 个文件系统和快照。这可能需要一段时间。如果您启用了重复数据删除(由于您使用的是 snv_111,因此没有启用),则需要更多时间,因为它必须加载重复数据删除表 (DDT)。

关闭系统从来都不是一个好选择,特别是在 OpenSolaris snv_111 上。您尚未发布池配置 (zpool status),但是,如果您有 slog 设备并且它们发生故障,您将无法导入池(此问题最近已在 Solaris 11 Express snv_151a 中得到解决)。

我的建议是,您单独导出 32 个磁盘,并创建多个 raidz2 vdev,这样您就拥有更多的读/写磁头。不要创建包含超过 8 个磁盘的大型 vdev,因为这样性能会非常糟糕。

如果您无法承受系统停机这么长时间(大多数人都无法承受),请仔细研究 ZFS 快照以及如何使用 zfs send/receive 将它们复制到远程服务器。这将允许您快速启动故障转移服务器。

答案2

“zfs import” 或多或少只是直接读回 vdev 的配置(来自“zpool.cache”)。我猜这里花了很长时间才完成的原因是您的删除事务。

假设 ZFS 是事务性的,并且您删除了 1000 个文件系统,每个文件系统有 24 个快照,那么您将执行非常密集的删除操作,需要检查指向 24,000 个快照的引用指针。考虑到这些 SATA 磁头的寻道时间,以及需要执行的所有树更新。

相关内容