为什么通过 gzip 管道传输“dd”比直接复制快得多？

Question 1

dd默认情况下使用非常小的块大小——512 字节（！！）。也就是说，有很多小的读取和写入。似乎dd在您的第一个示例中天真地使用了，生成了大量具有非常小的有效负载的网络数据包，从而降低了吞吐量。

另一方面，gzip它足够智能，可以使用更大的缓冲区进行 I/O。也就是说，通过网络进行的大量写入次数较少。

您能否dd使用更大的bs=参数再试一次，看看这次是否效果更好？

Answer

dd默认情况下使用非常小的块大小——512 字节（！！）。也就是说，有很多小的读取和写入。似乎dd在您的第一个示例中天真地使用了，生成了大量具有非常小的有效负载的网络数据包，从而降低了吞吐量。

另一方面，gzip它足够智能，可以使用更大的缓冲区进行 I/O。也就是说，通过网络进行的大量写入次数较少。

您能否dd使用更大的bs=参数再试一次，看看这次是否效果更好？

Question 2

有点晚了，但我可以补充一下......

在一次采访中我被问到克隆逐位数据最快的方法是什么并粗略地回应使用dd或dc3dd（国防部资助)。面试官确认管道传输dd到dd更有效，因为这样可以简单地允许同时读/写或者用程序员的术语来说stdin/stdout，从而最终使写入速度加倍，传输时间减半。

dc3dd verb=on if=/media/backup.img | dc3dd of=/dev/sdb

Answer

有点晚了，但我可以补充一下......

在一次采访中我被问到克隆逐位数据最快的方法是什么并粗略地回应使用dd或dc3dd（国防部资助)。面试官确认管道传输dd到dd更有效，因为这样可以简单地允许同时读/写或者用程序员的术语来说stdin/stdout，从而最终使写入速度加倍，传输时间减半。

dc3dd verb=on if=/media/backup.img | dc3dd of=/dev/sdb

Question 3

Cong 是正确的。您正在将块从磁盘以未压缩的形式传输到远程主机。您的网络接口、网络和远程服务器是限制因素。首先，您需要提高 DD 的性能。指定与磁盘缓冲内存一致的 bs= 参数将从磁盘获得最佳性能。例如，假设 bs=32M。然后，这将以 sata 或 sas 线速从驱动器缓冲区直接填充 gzip 的缓冲区。磁盘将更倾向于顺序传输，从而提供更好的吞吐量。Gzip 将压缩流中的数据并将其发送到您的位置。如果您使用的是 NFS，这将使 nfs 传输最小化。如果您使用的是 SSH，那么您将产生 SSH 封装和加密开销。如果您使用 netcat，那么您就没有加密开销。

Answer

Cong 是正确的。您正在将块从磁盘以未压缩的形式传输到远程主机。您的网络接口、网络和远程服务器是限制因素。首先，您需要提高 DD 的性能。指定与磁盘缓冲内存一致的 bs= 参数将从磁盘获得最佳性能。例如，假设 bs=32M。然后，这将以 sata 或 sas 线速从驱动器缓冲区直接填充 gzip 的缓冲区。磁盘将更倾向于顺序传输，从而提供更好的吞吐量。Gzip 将压缩流中的数据并将其发送到您的位置。如果您使用的是 NFS，这将使 nfs 传输最小化。如果您使用的是 SSH，那么您将产生 SSH 封装和加密开销。如果您使用 netcat，那么您就没有加密开销。

Question 4

我假设你提到的“传输速度”是由报告的dd。这确实有道理，因为dd实际上每秒传输的数据量是原来的 10 倍！但是，dd并未通过网络传输 — — 该作业正在由该gzip进程处理。

一些背景信息：gzip将以清除内部缓冲区的速度从输入管道消耗数据。gzip缓冲区清空的速度取决于以下几个因素：

I/O 写入带宽（受网络限制，且一直保持不变）
I/O 读取带宽（这将远高于现代机器上从本地磁盘读取的 1MB/s，因此不太可能成为瓶颈）
它的压缩率（我假设你的 10 倍加速大约为 10%，这表明你正在压缩某种高度重复的文本，如日志文件或某些 XML）

因此，在这种情况下，网络可以处理 100kB/s，并将gzip数据压缩到 10:1 左右（并且不会受到 CPU 的瓶颈影响）。这意味着，虽然它输出 100kB/s，但gzip可以消耗1MB/s，消耗的速度是dd看得见的。

Answer

我假设你提到的“传输速度”是由报告的dd。这确实有道理，因为dd实际上每秒传输的数据量是原来的 10 倍！但是，dd并未通过网络传输 — — 该作业正在由该gzip进程处理。

一些背景信息：gzip将以清除内部缓冲区的速度从输入管道消耗数据。gzip缓冲区清空的速度取决于以下几个因素：

I/O 写入带宽（受网络限制，且一直保持不变）
I/O 读取带宽（这将远高于现代机器上从本地磁盘读取的 1MB/s，因此不太可能成为瓶颈）
它的压缩率（我假设你的 10 倍加速大约为 10%，这表明你正在压缩某种高度重复的文本，如日志文件或某些 XML）

因此，在这种情况下，网络可以处理 100kB/s，并将gzip数据压缩到 10:1 左右（并且不会受到 CPU 的瓶颈影响）。这意味着，虽然它输出 100kB/s，但gzip可以消耗1MB/s，消耗的速度是dd看得见的。

为什么通过 gzip 管道传输“dd”比直接复制快得多？

答案1

答案2

答案3

答案4

相关内容