使用单个进程使 AWK 进程成为一个巨大的文件集

Question 1

如果参数太多，您将必须自己打开并处理文件。使用 awk，无需使用任何扩展，您就可以使用它（与 Jeff 的答案相同的想法）：

awk '{ filename = $0; while(getline < filename > 0) { print $0; }}'

例如，结合find命令来查找您需要的文件：

find /etc/ -maxdepth 1 -type f -perm -444 -size 1 | \
  awk '{ filename = $0; while(getline < filename > 0) { print filename ":" $0; }}'

此外，根据 awk 的版本，可以推送更多文件进行处理如此处记录的。

程序可以改变 ARGC 和 ARGV 的元素。每次 awk 到达输入文件的末尾时，它都会使用 ARGV 的下一个元素作为下一个输入文件的名称。通过在那里存储不同的字符串，程序可以更改读取的文件。使用“-”代表标准输入。存储附加元素并递增 ARGC 会导致读取附加文件。

用一个例子来说明：

find /etc/ -maxdepth 1 -type f -perm -444 -size 1 | \
  awk '
    # When reading from STDIN, assume it is a list of files to read
    FILENAME == "-" { ARGV[ARGC] = $0; ARGC += 1 }
    # When not reading STDIN, it is a file to process
    FILENAME != "-" { print "---", FILENAME ":" FNR ":" $0; }
    # These will run after every file, including STDIN, hence the check
    BEGINFILE { if (FILENAME != "-") { print ">>>", FILENAME; } }
    ENDFILE   { if (FILENAME != "-") { print "<<<", FILENAME, FNR, "lines"; } }'

Answer

如果参数太多，您将必须自己打开并处理文件。使用 awk，无需使用任何扩展，您就可以使用它（与 Jeff 的答案相同的想法）：

awk '{ filename = $0; while(getline < filename > 0) { print $0; }}'

例如，结合find命令来查找您需要的文件：

find /etc/ -maxdepth 1 -type f -perm -444 -size 1 | \
  awk '{ filename = $0; while(getline < filename > 0) { print filename ":" $0; }}'

此外，根据 awk 的版本，可以推送更多文件进行处理如此处记录的。

程序可以改变 ARGC 和 ARGV 的元素。每次 awk 到达输入文件的末尾时，它都会使用 ARGV 的下一个元素作为下一个输入文件的名称。通过在那里存储不同的字符串，程序可以更改读取的文件。使用“-”代表标准输入。存储附加元素并递增 ARGC 会导致读取附加文件。

用一个例子来说明：

find /etc/ -maxdepth 1 -type f -perm -444 -size 1 | \
  awk '
    # When reading from STDIN, assume it is a list of files to read
    FILENAME == "-" { ARGV[ARGC] = $0; ARGC += 1 }
    # When not reading STDIN, it is a file to process
    FILENAME != "-" { print "---", FILENAME ":" FNR ":" $0; }
    # These will run after every file, including STDIN, hence the check
    BEGINFILE { if (FILENAME != "-") { print ">>>", FILENAME; } }
    ENDFILE   { if (FILENAME != "-") { print "<<<", FILENAME, FNR, "lines"; } }'

Question 2

如果您的文件名不包含引号或空格，一种选择是将它们堆积在一起cat：

printf '%s ' * | xargs cat | awk ...

printf上面的代码只是通过使用内置 ( ) 打印每个文件名来解决“参数列表太长”错误，然后将其发送到xargs，这会将文件名分成多个批次，然后发送到cat，然后将其输出发送到到awk。

但是：不要使用 xargs

如果您有可用的 GNU awk (gawk)4.1 或以上版本，其中引入了动态模块加载，它包含一个可以读取目录本身的扩展，从而绕过了该问题。

这是一个示例 gawk 程序，它将打开并读取您传递给它的任何目录中的文件；然后，您必须显式地读取您感兴趣的每个文件。这样做的好处是您有一个可以读取每个文件的 (GNU) awk 程序。

@load "readdir"
@load "filefuncs"

BEGIN { FS = "/" }
{
        result = stat($2, statdata)
        if (statdata["type"] != "file")
                next
        FS = " "
        while(getline < statdata["name"] > 0) {
                #print $1
        }
        FS = "/"
}

该脚本的主循环遍历命令行上给出的每个参数，并尝试将其作为目录打开。结果字段是：

$1 = 索引节点号
$2 = 文件名
$3 = 文件类型

然后我们使用 filefuncs 函数stat来检查文件的类型。如果它不是普通文件，我们将跳过它。否则，我们设置FS回正常值并用于getline读取文件。处理完每个文件后，我们将 FS 重置回，/以便它可以从readdir.

我了解到gawk 的 readdir 在这里以及关于gawk 的 filefuncs stat 在这里。

Answer