如何有效地使用 GNU 并行

Question 1

我真的很惊讶你使用 GNU Parallel 的--pipe.我的测试通常最大速度约为 100 MB/s。

你的瓶颈很可能是在 GNU Parallel 中：--pipe效率不是很高。--pipepart然而，这里我可以得到每个 CPU 核心 1 GB/s 的数量级。

不幸的是，使用有一些限制--pipepart：

例子：

parallel --pipepart -a bigfile --block 100M grep somepattern

Answer

我真的很惊讶你使用 GNU Parallel 的--pipe.我的测试通常最大速度约为 100 MB/s。

你的瓶颈很可能是在 GNU Parallel 中：--pipe效率不是很高。--pipepart然而，这里我可以得到每个 CPU 核心 1 GB/s 的数量级。

不幸的是，使用有一些限制--pipepart：

例子：

parallel --pipepart -a bigfile --block 100M grep somepattern

Question 2

grep 非常有效 - 并行运行它是没有意义的。在你的命令中，只有解压需要更多的CPU，但这不能并行。

通过并行分割输入比通过 grep 获取匹配行需要更多的 cpu。

如果您希望使用每行需要更多 cpu 的东西而不是 grep ，那么情况会发生变化 - 那么并行会更有意义。

如果您希望加快此操作 - 看看瓶颈在哪里 - 可能是解压（然后帮助使用其他解压工具或更好的CPU）或 - 从磁盘读取（然后帮助使用其他解压工具或更好的磁盘系统）。

根据我的经验 - 有时最好使用 lzma（例如 -2）来压缩/解压缩文件 - 它的压缩率比 gzip 更高，因此需要从磁盘读取的数据少得多，并且速度相当。

Answer