使用 shell 脚本并行运行具有不同输入的同一文件的多个副本

使用 shell 脚本并行运行具有不同输入的同一文件的多个副本

假设我有一个文件“Analysis.C”,它将数据文件作为输入。数据文件被命名为“a.00001.txt”至“a.01000.txt”。循环所有文件的一种方法是编写一个 shell 脚本,我用它在sed从 0001 到 1000 的迭代中更改“Analysis.C”中的输入文件名。但是,我必须一次执行一个输入文件。

我想要的是并行运行文件“Analysis.C”的多个实例,其中每个实例中采用不同的输入(我想这里的约束是我可以在我的电脑上腾出的核心数量),并执行不同的同时出现多个实例。我怎么做?

答案1

使用 GNU Parallel,您可以执行以下操作:

parallel analysis.C ::: *.txt

或者如果你有很多.txt- 文件:

printf '%s\0' *.txt | parallel -0 analysis.C

默认情况下,每个 CPU 线程运行一项作业。这可以-j20针对 20 个并行作业进行调整。

parallel.moreutils- 解决方案相反,您可以对输出进行后处理:输出是序列化的,因此您永远不会看到两个作业混合的输出。

GNU Parallel 是一个通用并行器,可以轻松地在同一台计算机或多台您可以通过 ssh 访问的计算机上并行运行作业。

如果您想要在 4 个 CPU 上运行 32 个不同的作业,则并行化的直接方法是在每个 CPU 上运行 8 个作业:

简单的调度

相反,GNU Parallel 在完成后会生成一个新进程 - 保持 CPU 处于活动状态,从而节省时间:

GNU 并行调度

安装

出于安全原因,您应该使用软件包管理器安装 GNU Parallel,但如果 GNU Parallel 未针对您的发行版打包,您可以进行个人安装,这不需要 root 访问权限。这样做可以在 10 秒内完成:

(wget -O - pi.dk/3 || curl pi.dk/3/ || fetch -o - http://pi.dk/3) | bash

对于其他安装选项,请参阅http://git.savannah.gnu.org/cgit/parallel.git/tree/README

了解更多

查看更多示例:http://www.gnu.org/software/parallel/man.html

观看介绍视频:https://www.youtube.com/playlist?list=PL284C9FF2488BC6D1

浏览本教程:http://www.gnu.org/software/parallel/parallel_tutorial.html

读了这本书:https://doi.org/10.5281/zenodo.1146014

注册电子邮件列表以获得支持:https://lists.gnu.org/mailman/listinfo/parallel

答案2

请参阅parallel命令(来自moreutils许多发行版的包)。从手册页:

并行运行指定的命令,并向其传递单个指定参数。每个参数都会重复此操作。作业可以并行运行。默认情况下,每个 CPU 运行一个作业。

所以:

parallel analysis.C -- a.0????.txt

相关内容