使用 awk 中的正则表达式打印第一个字段只有四个字符的行？

Question 1

awk 中的字段默认由“ ”分隔，这意味着$1不包含空格，因此正确的正则表达式$1是：

awk '$1 ~ /^[a-zA-Z0-9]{4}$/ {print}' file

如果你想保留原来的方法，你也可以使用$0，即：

awk '$0 ~ /^[a-zA-Z0-9]{4}\s/ {print}' file

为了简化事情，您还可以使用\w而不是显式定义单词字符，即：

awk '$0 ~ /^\w{4}\s/ {print}' file

如果您只想匹配空格而不是其他内容，TAB则只需替换\s为“ ”（不带引号）。

您原来的方法的另一个问题是缺少锚点。由于您没有指定，您的模式^也$不能出现在任何地方，即模式将Elizabeth Stachelin与 with匹配beth。

Answer

awk 中的字段默认由“ ”分隔，这意味着$1不包含空格，因此正确的正则表达式$1是：

awk '$1 ~ /^[a-zA-Z0-9]{4}$/ {print}' file

如果你想保留原来的方法，你也可以使用$0，即：

awk '$0 ~ /^[a-zA-Z0-9]{4}\s/ {print}' file

为了简化事情，您还可以使用\w而不是显式定义单词字符，即：

awk '$0 ~ /^\w{4}\s/ {print}' file

如果您只想匹配空格而不是其他内容，TAB则只需替换\s为“ ”（不带引号）。

您原来的方法的另一个问题是缺少锚点。由于您没有指定，您的模式^也$不能出现在任何地方，即模式将Elizabeth Stachelin与 with匹配beth。

Question 2

在 AWK 中，您可以使用正则表达式作为图案就像您在 AWK 脚本中经常看到的BEGIN那样。END简化的代码可以是这样的

awk '/^[[:alnum:]]{4}\>/'

这就是满足您的需求所需的一切。您不需要行动,{print}是模式匹配时的默认操作，它打印整个记录，即整行。

[:alnum:]是基本上的同义词[a-zA-Z0-9]，具体取决于区域设置。您还可以使用\w— 只是它还包含下划线_，它是以下划线的简写[[:alnum:]_]：

awk '/^\w{4}\>/'

\>匹配单词的结尾。通过使用它，John:(###)...如果您有不包含全名的记录，您可以正确匹配字符串。

虽然你问的是 AWK，但我建议使用sed，在这种情况下它的运行速度几乎是 AWK 的两倍：

sed -n '/^[[:alnum:]]\{4\}\b/p'

\b是\>或\<在 AWK 中。我在 500K 行上进行了测试，匹配了 100K 行，AWK 花费了大约 1.7 秒，sed 仅花费了 0.9 秒。但测试用例是极端的，这只是一个挑剔的建议。

我还建议您阅读man 7 regex以及man awk和info awk。

Answer