压缩非常大（100G）文件的时间

Question 1

--fast --best您可以使用或更改 gzip 的速度，-#其中 # 是 1 到 9 之间的数字（1 最快但压缩率较低，9 最慢但压缩率较高）。默认情况下，gzip 以级别 6 运行。

Answer

--fast --best您可以使用或更改 gzip 的速度，-#其中 # 是 1 到 9 之间的数字（1 最快但压缩率较低，9 最慢但压缩率较高）。默认情况下，gzip 以级别 6 运行。

Question 2

tar 与 gzip 相比花费时间如此少的原因是，将文件复制到单个文件中（它的作用就是这个）的计算开销非常小。另一方面，gzip 实际上是使用压缩算法来缩小 tar 文件。

问题是 gzip 被限制（正如您所发现的）到单个线程。

进入猪，可以使用多个线程来执行压缩。如何使用它的示例如下：

tar -c --use-compress-program=pigz -f tar.file dir_to_zip

上有一篇关于 --use-compress-program 选项的简洁摘要姊妹网站。

Answer

tar 与 gzip 相比花费时间如此少的原因是，将文件复制到单个文件中（它的作用就是这个）的计算开销非常小。另一方面，gzip 实际上是使用压缩算法来缩小 tar 文件。

问题是 gzip 被限制（正如您所发现的）到单个线程。

进入猪，可以使用多个线程来执行压缩。如何使用它的示例如下：

tar -c --use-compress-program=pigz -f tar.file dir_to_zip

上有一篇关于 --use-compress-program 选项的简洁摘要姊妹网站。

Question 3

我似乎正在以大约 100% 的速率使用单个 CPU。

这意味着不存在 I/O 性能问题，但压缩仅使用一个线程（gzip 就是这种情况）。

如果您设法获得安装其他工具所需的访问/协议，那么 7zip 还支持多线程以利用多核 CPU，尽管我不确定这是否扩展到 gzip 格式以及它自己的格式。

如果您暂时只能使用 gzip 并且有多个文件需要压缩，您可以尝试单独压缩它们 - 这样您就可以通过并行运行多个进程来使用更多的多核 CPU。但请注意不要过度使用，因为一旦接近 I/O 子系统的容量，性能就会急剧下降（低于使用一个进程/线程时的性能），因为磁头移动的延迟会成为一个重要的瓶颈。

Answer

我似乎正在以大约 100% 的速率使用单个 CPU。

这意味着不存在 I/O 性能问题，但压缩仅使用一个线程（gzip 就是这种情况）。

如果您设法获得安装其他工具所需的访问/协议，那么 7zip 还支持多线程以利用多核 CPU，尽管我不确定这是否扩展到 gzip 格式以及它自己的格式。

如果您暂时只能使用 gzip 并且有多个文件需要压缩，您可以尝试单独压缩它们 - 这样您就可以通过并行运行多个进程来使用更多的多核 CPU。但请注意不要过度使用，因为一旦接近 I/O 子系统的容量，性能就会急剧下降（低于使用一个进程/线程时的性能），因为磁头移动的延迟会成为一个重要的瓶颈。

Question 4

我们还可以利用 pigz 中可用的进程数量，这通常具有更快的性能，如以下命令所示

tar cf - 要存档的目录 | pigz -0 -p largenumber > mydir.tar.gz

示例 - tar cf - patha | pigz -0 -p 32 > patha.tar.gz

这可能比文章中建议的方法更快，因为 -p 是可以运行的进程数。根据我的个人经验，如果要存档的目录包含大量小文件，则设置非常大的值不会损害性能。否则，考虑的默认值是 8。对于大文件，我的建议是将此值设置为系统支持的总线程数。

例如，对于 32 CPU 的机器，设置 p = 32 的值会有所帮助。

0 表示 pigz 压缩速度最快，因为它不压缩档案，而是注重速度。压缩的默认值为 6。

Answer

我们还可以利用 pigz 中可用的进程数量，这通常具有更快的性能，如以下命令所示

tar cf - 要存档的目录 | pigz -0 -p largenumber > mydir.tar.gz

示例 - tar cf - patha | pigz -0 -p 32 > patha.tar.gz

这可能比文章中建议的方法更快，因为 -p 是可以运行的进程数。根据我的个人经验，如果要存档的目录包含大量小文件，则设置非常大的值不会损害性能。否则，考虑的默认值是 8。对于大文件，我的建议是将此值设置为系统支持的总线程数。

例如，对于 32 CPU 的机器，设置 p = 32 的值会有所帮助。

0 表示 pigz 压缩速度最快，因为它不压缩档案，而是注重速度。压缩的默认值为 6。

相关内容