xargs、记录和标准输入

xargs、记录和标准输入

我有一个 0 字节分隔的记录文件。

Record 1, Line 1
Record 1, Line 2
[zero byte]
Record 2, Line 1
Record 2, Line 2

我想为每个记录运行一次“process.sh”命令,并将记录作为标准输入:

bash process-one-record-stdin.sh <record-contents

我可以使用 xargs、parallel 或其他工具来完成此操作吗? (我知道如何使用 bash 脚本,但我更喜欢尽可能使用内置工具)

动机:

magic-xargs-type-command-here -0 all-records.txt -- xargs -d"\n" -- bash process-one-record-arguments.sh

答案1

如果你有 GNU Parallel,你可以这样做:

parallel --rrs --recend '\0' -N1 --pipe bash process-one-record-stdin.sh <record-contents

所有新计算机都具有多个内核,但大多数程序本质上是串行的,因此不会使用多个内核。然而,许多任务是极其可并行化的:

  • 在许多文件上运行相同的程序
  • 对文件中的每一行运行相同的程序
  • 为文件中的每个块运行相同的程序

GNU Parallel 是一个通用并行器,可以轻松地在同一台计算机或多台您可以通过 ssh 访问的计算机上并行运行作业。

如果您想要在 4 个 CPU 上运行 32 个不同的作业,则并行化的直接方法是在每个 CPU 上运行 8 个作业:

简单的调度

相反,GNU Parallel 在完成后会生成一个新进程 - 保持 CPU 处于活动状态,从而节省时间:

GNU 并行调度

安装

如果您的发行版未打包 GNU Parallel,您可以进行个人安装,不需要 root 访问权限。这样做可以在 10 秒内完成:

(wget -O - pi.dk/3 || curl pi.dk/3/ || fetch -o - http://pi.dk/3) | bash

对于其他安装选项,请参阅http://git.savannah.gnu.org/cgit/parallel.git/tree/README

了解更多

查看更多示例:http://www.gnu.org/software/parallel/man.html

观看介绍视频:https://www.youtube.com/playlist?list=PL284C9FF2488BC6D1

浏览本教程:http://www.gnu.org/software/parallel/parallel_tutorial.html

注册电子邮件列表以获得支持:https://lists.gnu.org/mailman/listinfo/parallel

答案2

我可以用 xarg 来做这个吗

对于 xargs,可以使用的选项:

--null -0 输入项以空字符而不是空格终止,

-n max-args 每个命令行最多使用 max-args 个参数。

$ echo -ne "line 111\0000line 222\0000\0000line 333\0000\0000" | \
     xargs -I '{}' --null -n 1 bash -c "echo handling this input: '{}'. OK"
handling this input: line 111. OK
handling this input: line 222. OK
handling this input: . OK
handling this input: line 333. OK
handling this input: . OK

相关内容