对匹配模式的多个文件并行执行命令

对匹配模式的多个文件并行执行命令

假设我有一个命令接受单个参数,即文件路径:

mycommand myfile.txt

现在我想在多个文件上并行执行此命令,更具体地说,文件匹配模式myfile*

有没有一种简单的方法可以实现这一目标?

答案1

使用 GNUxargs和支持进程替换的 shell

xargs -r -0 -P4 -n1 -a <(printf '%s\0' myfile*) mycommand

mycommand最多可并行运行 4秒。

如果mycommand不使用它的标准输入,你也可以这样做:

printf '%s\0' myfile* | xargs -r -0 -P4 -n1 mycommand

这也适用于xargs现代 BSD。

对于文件的递归搜索myfile*,请将printf命令替换为:

find . -name 'myfile*' -type f -print0

-type f仅适用于常规文件。对于 glob 等效项,您需要zsh和 it printf '%s\0' myfile*(.))。

答案2

使用循环:

for f in myfile*; do
  mycommand "$f" &
done

wait

或使用GNU并行

答案3

使用 GNU Parallel 看起来像这样:

parallel mycommand ::: myfile*

每个核心将运行一项作业。

GNU Parallel 是一个通用并行器,可以轻松地在同一台计算机或多台您可以通过 ssh 访问的计算机上并行运行作业。它通常可以代替for循环。

如果您想要在 4 个 CPU 上运行 32 个不同的作业,则并行化的直接方法是在每个 CPU 上运行 8 个作业:

简单的调度

相反,GNU Parallel 在完成后会生成一个新进程 - 保持 CPU 处于活动状态,从而节省时间:

GNU 并行调度

安装

如果您的发行版未打包 GNU Parallel,您可以进行个人安装,不需要 root 访问权限。这样做可以在 10 秒内完成:

(wget -O - pi.dk/3 || curl pi.dk/3/ || fetch -o - http://pi.dk/3) | bash

对于其他安装选项,请参阅http://git.savannah.gnu.org/cgit/parallel.git/tree/README

了解更多

查看更多示例:http://www.gnu.org/software/parallel/man.html

观看介绍视频:https://www.youtube.com/playlist?list=PL284C9FF2488BC6D1

浏览本教程:http://www.gnu.org/software/parallel/parallel_tutorial.html

注册电子邮件列表以获得支持:https://lists.gnu.org/mailman/listinfo/parallel

相关内容