Bash 脚本将一个文件作为输入并对另一个文件运行 awk 命令

Question 1

exec 4> "FILE_TO_SEARCH"

问题是您打开文件仅用于写入（从而删除其内容），但尝试使用文件描述符进行读取。

exec 4< "$FILE_TO_SEARCH"

Answer

exec 4> "FILE_TO_SEARCH"

问题是您打开文件仅用于写入（从而删除其内容），但尝试使用文件描述符进行读取。

exec 4< "$FILE_TO_SEARCH"

Question 2

正如我的评论中所指出的，除非有一些您没有告诉我们的事情，否则似乎没有必要在此处使用除 stdin 和 stdout 之外的文件描述符，也没有任何理由不将文件名传递awk给命令行。

编写一个 shellwhile read循环来对同一个输入文件运行awk多次是一种非常糟糕的方式来完成您想要做的事情 - 可能是处理文本文件的最糟糕的方式。它比在 awk（或 sed 或 perl 等）中执行相同的任务慢数百或数千倍。

尝试这样的事情：

#!/bin/bash

FILE1="$1"
FILE_TO_SEARCH="$2"

awk 'NR==FNR { gsub(/([\\.^$(){}\[\]|*+?])/,"\\\\&",$0);
               if (search == "") {
                 search = $0;
               } else {
                 search = search "|" $0;
               };
               next;
             };

     match($0,search)' "$FILE1" RS='' ORS='\n\n' "$FILE_TO_SEARCH"

（为了可读性而添加换行、缩进。该作品的 awk 部分也全部压缩在一行上）

这将打印出与$FILE_TO_SEARCH中任何搜索模式匹配的所有记录$FILE1。

$FILE1它使用默认的RS&读取第一个文件 ( ) ORS，并从中构造正则表达式搜索模式。该gsub()函数调用用于在将每行附加到搜索模式之前对所有正则表达式元字符进行反斜杠转义，即所有行都被视为固定字符串。如果您希望每一行都是正则表达式，请参阅下面的第二个版本。

对于上面的示例$FILE1，搜索模式将是：

hostAbC|host123|host345|hostMos|hostDef

然后，使用RS=''和ORS='\n\n'读入第二个文件 ( $FILE_TO_SEARCH) 并打印与搜索模式匹配的任何记录。

$FILE1如果您希望将每一行解释为正则表达式而不是固定字符串，则可以使用以下版本：

#!/bin/bash

FILE1="$1"
FILE_TO_SEARCH="$2"

awk 'NR==FNR { if (search == "") {
                 search = "(" $0 ")" ;
               } else {
                 search = search "|(" $0 ")";
               };
               next;
             };

     match($0,search)' "$FILE1" RS='' ORS='\n\n' "$FILE_TO_SEARCH"

此版本的示例搜索模式为：

(hostAbC)|(host123)|(host345)|(hostMos)|(hostDef)

请注意，使用此版本很容易构建一个损坏的搜索模式，该模式要么不匹配任何内容，要么匹配太多。您将需要使用反斜杠来转义 $FILE1 中您想要解释为文字字符串的任何正则表达式元字符。例如，如果您想匹配文字，|那么它必须位于文件中 as \|，否则它将被解释为正则表达式OR交替运算符。

Answer