如何并行化 bash for 循环并使用迭代变量进行文件 IO

如何并行化 bash for 循环并使用迭代变量进行文件 IO

我有一个 bash 脚本,或多或少看起来像这样:

N=32
for i in $(seq -f "%06g" 0 ${LAST_NUM}) # LAST_NUM is an env variable
do
  ((j=j%N)); ((j++==0)) && wait # Wait for all processes in batch to finish
  python foo1.py $i &
  python foo2.py "foo1_output${i}.file_extension" &
  python foo3.py "foo2_output${i}.file_extension" &
done

当我检查输出时,我收到FileNotFound中间文件的错误foo1_output${i}.file_extension。尽管我还没有证实这一点,但我怀疑 的状态i可能不会附加到该循环中生成的进程。我希望一个进程负责循环的一次迭代,而不仅仅是循环中的第一个命令。我上面的代码是否有错误,如果是,那么解决此问题的正确方法是什么?

答案1

您不需要基于 GNU Parallel 的解决方案,但 GNU Parallel 是专门为此类任务构建的,因此也许它是相关的。

doit() {
  i="$1"
  python foo1.py $i
  python foo2.py "foo1_output${i}.file_extension"
  python foo3.py "foo2_output${i}.file_extension"
}
export -f doit

# This will run one job per CPU thread (e.g. 32 if your server has 32 CPU thread)
seq -f "%06g" 0 ${LAST_NUM} | parallel doit

# If you really want to force 32 in parallel:
N=32
seq -f "%06g" 0 ${LAST_NUM} | parallel -j$N doit

GNU Parallel 是一个通用并行器,可以轻松地在同一台计算机或多台您可以通过 ssh 访问的计算机上并行运行作业。

如果您想要在 4 个 CPU 上运行 32 个不同的作业,则并行化的直接方法是在每个 CPU 上运行 8 个作业:

简单的调度

相反,GNU Parallel 在完成后会生成一个新进程 - 保持 CPU 处于活动状态,从而节省时间:

GNU 并行调度

安装

出于安全原因,您应该使用软件包管理器安装 GNU Parallel,但如果 GNU Parallel 未针对您的发行版打包,您可以进行个人安装,这不需要 root 访问权限。这样做可以在 10 秒内完成:

$ (wget -O - pi.dk/3 || lynx -source pi.dk/3 || curl pi.dk/3/ || \
   fetch -o - http://pi.dk/3 ) > install.sh
$ sha1sum install.sh | grep 883c667e01eed62f975ad28b6d50e22a
12345678 883c667e 01eed62f 975ad28b 6d50e22a
$ md5sum install.sh | grep cc21b4c943fd03e93ae1ae49e28573c0
cc21b4c9 43fd03e9 3ae1ae49 e28573c0
$ sha512sum install.sh | grep da012ec113b49a54e705f86d51e784ebced224fdf
79945d9d 250b42a4 2067bb00 99da012e c113b49a 54e705f8 6d51e784 ebced224
fdff3f52 ca588d64 e75f6033 61bd543f d631f592 2f87ceb2 ab034149 6df84a35
$ bash install.sh

对于其他安装选项,请参阅http://git.savannah.gnu.org/cgit/parallel.git/tree/README

了解更多

查看更多示例:http://www.gnu.org/software/parallel/man.html

观看介绍视频:https://www.youtube.com/playlist?list=PL284C9FF2488BC6D1

浏览本教程:http://www.gnu.org/software/parallel/parallel_tutorial.html

读了这本书:https://doi.org/10.5281/zenodo.1146014

注册电子邮件列表以获得支持:https://lists.gnu.org/mailman/listinfo/parallel

相关内容