zfs send -i / 接收停滞

Question

当您像这样将 zfs send 和 zfs accept 管道连接在一起时，它们会相互关联。源系统必须抓取 zfs 元数据，以查找在您发送的增量间隔内写入的块。然后，您将其管道传输到 mbuffer，这样就可以通过在两端呈现一个可以缓解停顿和超限的存储桶来优化 ssh 会话中的流。然后，来自 mbuffer 的管道将数据馈送到 zfs 接收，后者必须像处理写入数据一样处理传入的数据。因此，每个事务组有 X 个事务，刷新到磁盘，计算元数据，并将其全部写出，一直到超级块。这看起来很像流中的停顿，通常可持续 5 到 30 秒。如果吞吐量下降持续时间超过 30 秒，则可能是某个地方的资源受限。

例如，根据您的系统调整方式，您是否拥有快速的 ZIL SLOG？或者，您的 zpool 后面是否有大量主轴来优化 logbias=throughput？根据此类问题的答案，您将能够确定您是否在某个地方受到资源限制。

您的 CPU 看起来没有受到太大影响。我每天都会看到 ZPOOL 大小为 250+TB 的服务器，其mpstat intr列数超过 20,000。更多的 CPU 总是会提高 mpstat 数字。

我会查看一些 dtrace 脚本，例如zilstat、、arcstat等iopattern（检查 DtraceToolkit）以查看系统在您暂停期间正在做什么。

Answer 1

当您像这样将 zfs send 和 zfs accept 管道连接在一起时，它们会相互关联。源系统必须抓取 zfs 元数据，以查找在您发送的增量间隔内写入的块。然后，您将其管道传输到 mbuffer，这样就可以通过在两端呈现一个可以缓解停顿和超限的存储桶来优化 ssh 会话中的流。然后，来自 mbuffer 的管道将数据馈送到 zfs 接收，后者必须像处理写入数据一样处理传入的数据。因此，每个事务组有 X 个事务，刷新到磁盘，计算元数据，并将其全部写出，一直到超级块。这看起来很像流中的停顿，通常可持续 5 到 30 秒。如果吞吐量下降持续时间超过 30 秒，则可能是某个地方的资源受限。

例如，根据您的系统调整方式，您是否拥有快速的 ZIL SLOG？或者，您的 zpool 后面是否有大量主轴来优化 logbias=throughput？根据此类问题的答案，您将能够确定您是否在某个地方受到资源限制。

您的 CPU 看起来没有受到太大影响。我每天都会看到 ZPOOL 大小为 250+TB 的服务器，其mpstat intr列数超过 20,000。更多的 CPU 总是会提高 mpstat 数字。

我会查看一些 dtrace 脚本，例如zilstat、、arcstat等iopattern（检查 DtraceToolkit）以查看系统在您暂停期间正在做什么。

zfs send -i / 接收停滞

答案1

相关内容