awk 从字符串中提取数字

Question 1

使用用于多字符 RS 和 RT 的 GNU awk：

$ echo "blah foo123bar234blah" |
    awk -v RS='[0-9]+' '$0=RT'
123
234

使用任何 awk（并保留原始正则表达式而不是否定它，因为只有使用简单的括号表达式才容易，而不是强大的通用方法）：

$ echo "blah foo123bar234blah" |
    awk -v FS='\n' '{gsub(/[0-9]+/,FS"&"FS); for (i=2;i<=NF;i+=2) print $i}'
123
234

或者：

$ echo "blah foo123bar234blah" |
    awk '{ while (match($0,/[0-9]+/) ) {print substr($0,RSTART,RLENGTH); $0=substr($0,RSTART+RLENGTH)} }'
123
234

Answer

使用用于多字符 RS 和 RT 的 GNU awk：

$ echo "blah foo123bar234blah" |
    awk -v RS='[0-9]+' '$0=RT'
123
234

使用任何 awk（并保留原始正则表达式而不是否定它，因为只有使用简单的括号表达式才容易，而不是强大的通用方法）：

$ echo "blah foo123bar234blah" |
    awk -v FS='\n' '{gsub(/[0-9]+/,FS"&"FS); for (i=2;i<=NF;i+=2) print $i}'
123
234

或者：

$ echo "blah foo123bar234blah" |
    awk '{ while (match($0,/[0-9]+/) ) {print substr($0,RSTART,RLENGTH); $0=substr($0,RSTART+RLENGTH)} }'
123
234

Question 2

该match()函数执行一个单身的正则表达式的匹配。要使用match()GNU 中的正则表达式匹配来查找每组数字awk，您必须循环。

{
    str = $0
    while (match(str,"[0-9]+",a)) {
        print a[0]
        str = substr(str,RSTART+RLENGTH)
    }
}

我们只对a[0]这里感兴趣，因为我们在正则表达式中不使用括号。我们在表达式中不使用括号，因为我们不需要它们。如果我们想要将已知数量的整数与单个表达式（例如([0-9]+)[^0-9]+([0-9]+)等）匹配，我们可能需要括号，但在本练习中我们并不真正知道可能有多少个整数。

或者，使用标准awk,

{
    str = $0
    while (match(str,"[0-9]+")) {
        print substr(str,RSTART,RLENGTH)
        str = substr(str,RSTART+RLENGTH)
    }
}

这与中的字符串中的连续数字相匹配str。对于每个匹配，都会打印匹配的字符串，并str使用删除其中不再有趣的部分substr()。

测试：

$ echo 'blah foo123bar234blah' | gawk '{ str = $0; while (match(str,"[0-9]+",a)) { print a[0]; str = substr(str,RSTART+RLENGTH) } }'
123
234

Answer

该match()函数执行一个单身的正则表达式的匹配。要使用match()GNU 中的正则表达式匹配来查找每组数字awk，您必须循环。

{
    str = $0
    while (match(str,"[0-9]+",a)) {
        print a[0]
        str = substr(str,RSTART+RLENGTH)
    }
}

我们只对a[0]这里感兴趣，因为我们在正则表达式中不使用括号。我们在表达式中不使用括号，因为我们不需要它们。如果我们想要将已知数量的整数与单个表达式（例如([0-9]+)[^0-9]+([0-9]+)等）匹配，我们可能需要括号，但在本练习中我们并不真正知道可能有多少个整数。

或者，使用标准awk,

{
    str = $0
    while (match(str,"[0-9]+")) {
        print substr(str,RSTART,RLENGTH)
        str = substr(str,RSTART+RLENGTH)
    }
}

这与中的字符串中的连续数字相匹配str。对于每个匹配，都会打印匹配的字符串，并str使用删除其中不再有趣的部分substr()。

测试：

$ echo 'blah foo123bar234blah' | gawk '{ str = $0; while (match(str,"[0-9]+",a)) { print a[0]; str = substr(str,RSTART+RLENGTH) } }'
123
234

Question 3

您可以使用和gsub()函数awk将每次出现的“不包含数字的子字符串”转换为单个空格，然后使用该split()函数在空格处分割结果字符串。这就像默认FS变量上的字段分割一样，并丢弃前导和尾随的“空字段”：

awk '{gsub(/[^0-9]+/," ");n=split($0,a);for (i=1;i<=n;i++) print a[i]}'

所以，对于你的例子：

~$ echo "blah foo123bar234blah" | awk '{gsub(/[^0-9]+/," ");n=split($0,a);for (i=1;i<=n;i++) print a[i]}'
123
234

Answer

您可以使用和gsub()函数awk将每次出现的“不包含数字的子字符串”转换为单个空格，然后使用该split()函数在空格处分割结果字符串。这就像默认FS变量上的字段分割一样，并丢弃前导和尾随的“空字段”：

awk '{gsub(/[^0-9]+/," ");n=split($0,a);for (i=1;i<=n;i++) print a[i]}'

所以，对于你的例子：

~$ echo "blah foo123bar234blah" | awk '{gsub(/[^0-9]+/," ");n=split($0,a);for (i=1;i<=n;i++) print a[i]}'
123
234

Question 4

如果您确实只想提取数字（以下示例中的自然数和零！），您可以定义其他任何内容作为字段分隔符：

awk 'BEGIN {FS="[^0-9]+"}
     {printf $1 ; for (i=2 ; i<=NF ; i++) { printf " "$i} ; printf "\n"}'

（添加了一些格式，以便它返回每条记录一行的空格分隔条目）

Answer

如果您确实只想提取数字（以下示例中的自然数和零！），您可以定义其他任何内容作为字段分隔符：

awk 'BEGIN {FS="[^0-9]+"}
     {printf $1 ; for (i=2 ; i<=NF ; i++) { printf " "$i} ; printf "\n"}'

（添加了一些格式，以便它返回每条记录一行的空格分隔条目）

相关内容