使用 xargs 并行处理

使用 xargs 并行处理

如何为每一行并行执行 bash 脚本?实际上,我将跟踪日志文件,对于找到的每一行,我想在后台执行一个脚本;像下面的例子:

tailf logfile.log | grep 'patternline' | while read line ; do 
    bash scriptname.sh "$line" & ; 
done

我想知道如何使用执行上述任务参数(或任何其他合适的方法)并行以及如何限制进程。

提前致谢。

答案1

GNU Parallel 将为您正确引用参数:

tail -f logfile.log | grep 'patternline' |
  parallel bash scriptname.sh

最重要的是,它默认每个 CPU 核心有 1 个进程,并且将确保两个并行作业的输出不会混合。

GNU Parallel 是一个通用并行器,可以轻松地在同一台计算机或多台您可以通过 ssh 访问的计算机上并行运行作业。它通常可以代替for循环。

如果您想要在 4 个 CPU 上运行 32 个不同的作业,则并行化的直接方法是在每个 CPU 上运行 8 个作业:

简单的调度

相反,GNU Parallel 在完成后会生成一个新进程 - 保持 CPU 处于活动状态,从而节省时间:

GNU 并行调度

安装

如果您的发行版未打包 GNU Parallel,您可以进行个人安装,不需要 root 访问权限。这样做可以在 10 秒内完成:

$ (wget -O - pi.dk/3 || lynx -source pi.dk/3 || curl pi.dk/3/ || \
   fetch -o - http://pi.dk/3 ) > install.sh
$ sha1sum install.sh | grep 883c667e01eed62f975ad28b6d50e22a
12345678 883c667e 01eed62f 975ad28b 6d50e22a
$ md5sum install.sh | grep cc21b4c943fd03e93ae1ae49e28573c0
cc21b4c9 43fd03e9 3ae1ae49 e28573c0
$ sha512sum install.sh | grep da012ec113b49a54e705f86d51e784ebced224fdf
79945d9d 250b42a4 2067bb00 99da012e c113b49a 54e705f8 6d51e784 ebced224
fdff3f52 ca588d64 e75f6033 61bd543f d631f592 2f87ceb2 ab034149 6df84a35
$ bash install.sh

对于其他安装选项,请参阅http://git.savannah.gnu.org/cgit/parallel.git/tree/README

了解更多

查看更多示例:http://www.gnu.org/software/parallel/man.html

观看介绍视频:https://www.youtube.com/playlist?list=PL284C9FF2488BC6D1

浏览本教程:http://www.gnu.org/software/parallel/parallel_tutorial.html

注册电子邮件列表以获得支持:https://lists.gnu.org/mailman/listinfo/parallel

答案2

您想阅读xargs手册并查找其中的-L和标志。-P

tail -f logfile.log | grep 'patternline' |
xargs -P 4 -L 1 bash scriptname.sh

这将一次最多执行该命令的四个实例 ( -P 4),并且每次调用都使用一行输入 ( -L 1)。

添加-txargs以查看执行的内容。

相关内容