如果两个匹配字符串中的任何一个匹配，如何提取行？

Question 1

在这里，你可以这样做：

cut -d _ -f 2 < country.txt

或者，如果输入可能包含没有_字符的行：

awk -F _ 'NF >= 2 {print $2}' < country.txt

如果国家/地区名称可能包含_字符，并且您希望返回该行的第一次_出现和第一次出现之间_raw或_clean之后的部分，您可以执行以下操作：

perl -ne 'print $1 if s/^[^_]*_(.*?)_(clean|raw)/' < country.txt

或者使用 GNU grep：

grep -Po '^[^_]*_\K.*?(?=_clean|_raw)' < country.txt

-P（前提是已grep使用 PCRE 支持构建），正则表达式是与 perl 兼容的正则表达式。在这些正则表达式中，\K重置匹配字符串的开头，并且(?=...)是一个前瞻运算符，也就是说，它会查找字符串的其余部分是否匹配...，而该部分是否包含在匹配部分中。-o使grep输出匹配的部分，因此这里它打印与.*?上面匹配的内容，这是的非贪婪等价物.*，即 0 个或多个字符的序列，尽可能短，在本例中遵循 0 个或多个下划线的序列（[^_]*) 位于行 ( ) 的开头，^后跟下划线，并假设其后跟_raw或_clean。

有了pcregrep，你还可以这样写：

pcregrep -o1 '^[^_]*_(.*?)_(clean|raw)'

使用-o1，它会打印与第一个匹配的部分(...)。

Answer

我不会使用 shell 循环来处理文本。