假设我有一个文件“Analysis.C”,它将数据文件作为输入。数据文件被命名为“a.00001.txt”至“a.01000.txt”。循环所有文件的一种方法是编写一个 shell 脚本,我用它在sed
从 0001 到 1000 的迭代中更改“Analysis.C”中的输入文件名。但是,我必须一次执行一个输入文件。
我想要的是并行运行文件“Analysis.C”的多个实例,其中每个实例中采用不同的输入(我想这里的约束是我可以在我的电脑上腾出的核心数量),并执行不同的同时出现多个实例。我怎么做?
答案1
使用 GNU Parallel,您可以执行以下操作:
parallel analysis.C ::: *.txt
或者如果你有很多.txt
- 文件:
printf '%s\0' *.txt | parallel -0 analysis.C
默认情况下,每个 CPU 线程运行一项作业。这可以-j20
针对 20 个并行作业进行调整。
与parallel.moreutils
- 解决方案相反,您可以对输出进行后处理:输出是序列化的,因此您永远不会看到两个作业混合的输出。
GNU Parallel 是一个通用并行器,可以轻松地在同一台计算机或多台您可以通过 ssh 访问的计算机上并行运行作业。
如果您想要在 4 个 CPU 上运行 32 个不同的作业,则并行化的直接方法是在每个 CPU 上运行 8 个作业:
相反,GNU Parallel 在完成后会生成一个新进程 - 保持 CPU 处于活动状态,从而节省时间:
安装
出于安全原因,您应该使用软件包管理器安装 GNU Parallel,但如果 GNU Parallel 未针对您的发行版打包,您可以进行个人安装,这不需要 root 访问权限。这样做可以在 10 秒内完成:
(wget -O - pi.dk/3 || curl pi.dk/3/ || fetch -o - http://pi.dk/3) | bash
对于其他安装选项,请参阅http://git.savannah.gnu.org/cgit/parallel.git/tree/README
了解更多
查看更多示例:http://www.gnu.org/software/parallel/man.html
观看介绍视频:https://www.youtube.com/playlist?list=PL284C9FF2488BC6D1
浏览本教程:http://www.gnu.org/software/parallel/parallel_tutorial.html
读了这本书:https://doi.org/10.5281/zenodo.1146014
注册电子邮件列表以获得支持:https://lists.gnu.org/mailman/listinfo/parallel
答案2
请参阅parallel
命令(来自moreutils
许多发行版的包)。从手册页:
并行运行指定的命令,并向其传递单个指定参数。每个参数都会重复此操作。作业可以并行运行。默认情况下,每个 CPU 运行一个作业。
所以:
parallel analysis.C -- a.0????.txt