在多个线程上运行命令

在多个线程上运行命令

我正在运行一个命令(准确地说是 pngquant:https://github.com/pornel/pngquant)在终端窗口中。我注意到,如果我打开 4 个终端窗口,并在每个窗口中运行 pngquant 命令,我的速度会提高 4 倍,在同一时间内有效压缩的图像数量是以前的 4 倍。

所以我使用了这种方法并为每个 pngqunat 进程分配了我想要压缩的图像的一部分,从而有效地在多个线程上创建了多个进程

您可以在多个线程上运行命令而不执行我所做的这些技巧吗?我只想说“对所有这些图像运行 pngquant 压缩并使用所有可用的线程。”

答案1

moreutilsparallel 和 GNUparallel 都会为你做这件事。与moreutils的并行,它看起来像:

parallel -j "$(nproc)" pngquant [pngquant-options] -- *.png

nproc输出可用处理器(线程)的数量,以便-j "$(nproc)"立即运行 available-processors ( ) pngquants,并传递每个单个 PNG 文件。如果启动开销太高,您可以使用以下-n选项一次向每次运行传递更多 PNG 文件;-n 2会将两个 PNG 传递给每个 pngquant。

答案2

使用 GNU xargs

find . -type f -name '*.png' -print0 | xargs -r0 -n10 -P "$(nproc)" pngquant

(每次pngquant调用最多提供 10 个要压缩的文件,最多"$(nproc)" 同时运行(系统上的处理器数量))

答案3

使用 GNU Parallel 看起来像这样:

parallel pngquant --my-options ::: *.png

或者:

ls | grep \\.png | parallel pngquant --my-options

默认情况下,每个 CPU 核心执行一项作业。在您的情况下,您可能希望比您拥有的核心多运行一项作业:

ls | grep \\.png | parallel -j+1 pngquant --my-options

这是因为pngquant读取和写入数据都需要时间。在此期间,它等待磁盘并且几乎不使用任何 CPU,因此您可能有一些空闲的 CPU 时间。唯一确定的方法是测量并看看哪个更快。

GNU Parallel 是一个通用并行器,可以轻松地在同一台计算机或多台您可以通过 ssh 访问的计算机上并行运行作业。

如果您想要在 4 个 CPU 上运行 32 个不同的作业,则并行化的直接方法是在每个 CPU 上运行 8 个作业:

简单的调度

相反,GNU Parallel 在完成后会生成一个新进程 - 保持 CPU 处于活动状态,从而节省时间:

GNU 并行调度

安装

出于安全原因,您应该使用软件包管理器安装 GNU Parallel,但如果 GNU Parallel 未针对您的发行版打包,您可以进行个人安装,这不需要 root 访问权限。这样做可以在 10 秒内完成:

(wget -O - pi.dk/3 || curl pi.dk/3/ || fetch -o - http://pi.dk/3) | bash

对于其他安装选项,请参阅http://git.savannah.gnu.org/cgit/parallel.git/tree/README

了解更多

查看更多示例:http://www.gnu.org/software/parallel/man.html

观看介绍视频:https://www.youtube.com/playlist?list=PL284C9FF2488BC6D1

浏览本教程:http://www.gnu.org/software/parallel/parallel_tutorial.html

注册电子邮件列表以获得支持:https://lists.gnu.org/mailman/listinfo/parallel

相关内容