多行 gensub

Question 1

您似乎认为awk将其输入视为多行字符串。事实并非如此。当您对文件运行 awk 脚本时，该脚本将被应用到文件的每一行分别地。所以，你的gensub每行运行一次。您实际上可以做您想做的事情，awk但它确实不是完成这项工作的最佳工具。

据我所知，您有一个大文件，只想打印后面的数字mark:和空格。如果是这样，所有这些方法都比闲逛更简单gensub：

如果你真的非常想使用gensub，你可以这样做：

$ awk '/mark:/{print gensub(/.*mark:\s*([0-9]+).*/,"\\1","g")}' file
98

就个人而言，我会在 awk 中这样做：

$ awk '/mark:/{gsub(/[^0-9]/,"");print}' file
98

由于您似乎试图让 awk 接收多行输入，因此您可以这样做（假设文件中没有 NULL 字符）：

$ awk '{print(gensub(/^.*mark: ([0-9]+).*$/,"\\1","g"))}' RS='\0' file
98

RS='\0'将输入记录分隔符（即定义的“行” awk）设置为\0。由于文件中没有此类字符，因此会awk立即读取整个内容。

Answer

您似乎认为awk将其输入视为多行字符串。事实并非如此。当您对文件运行 awk 脚本时，该脚本将被应用到文件的每一行分别地。所以，你的gensub每行运行一次。您实际上可以做您想做的事情，awk但它确实不是完成这项工作的最佳工具。

据我所知，您有一个大文件，只想打印后面的数字mark:和空格。如果是这样，所有这些方法都比闲逛更简单gensub：

如果你真的非常想使用gensub，你可以这样做：

$ awk '/mark:/{print gensub(/.*mark:\s*([0-9]+).*/,"\\1","g")}' file
98

就个人而言，我会在 awk 中这样做：

$ awk '/mark:/{gsub(/[^0-9]/,"");print}' file
98

由于您似乎试图让 awk 接收多行输入，因此您可以这样做（假设文件中没有 NULL 字符）：

$ awk '{print(gensub(/^.*mark: ([0-9]+).*$/,"\\1","g"))}' RS='\0' file
98

RS='\0'将输入记录分隔符（即定义的“行” awk）设置为\0。由于文件中没有此类字符，因此会awk立即读取整个内容。

Question 2

使其正常工作的最小改变是：

cat file | awk '/mark:/{printf( "%s\n",gensub(/^.*mark: ([0-9]+).*$/,"\\1","g"))}'

/mark:/ 是选择包含“mark:”的行。
但是，那么，为什么需要 printf 呢？这也将起作用：

cat file | awk '/mark:/{print(gensub(/^.*mark: ([0-9]+).*$/,"\\1","g"))}'

但这将是一个“对猫的无用利用"，因为 awk 可以直接从文件中读取：

awk '/mark:/{print(gensub(/^.*mark: ([0-9]+).*$/,"\\1","g"))}' file

根据用户请求：如何在文件和字符串上使用正则表达式。

好吧，根据您设置的规则：仅使用 gensub 的 awk 是不可能的。
此外，匹配的想法是.*mark: ([0-9]+).*用括号内的匹配替换所有内容，这意味着需要匹配整个文件才能提取一部分。这就是创建 grep 的原因之一。

只需使用：

grep -oP "mark: \K([0-9]+)" file

或者：

echo "$string" | grep -oP "mark: \K([0-9]+)"

你就会得到结果。

Answer