awk 从字符串中提取数字

awk 从字符串中提取数字

有多个相关问题,似乎它们不能用来awk解决问题。

echo "blah foo123bar234blah" | egrep -o '([0-9]+)' 

回报

123
234 

echo "blah foo123bar234blah" | 
    awk '{ match($0,/([0-9]+)/,m); print m[0], m[1],m[2]}'    

返回123 123

echo "blah foo123bar234blah" | 
    awk '{ match($0,/([0-9]+).+([0-9]+)/,m); print m[0], m[1],m[2]}'    

回报 123bar234 123 4

手册,在部分:匹配(字符串,正则表达式[,数组]),例子是:

echo foooobazbarrrrr |
    gawk '{ match($0, /(fo+).+(bar*)/, arr); print arr[1], arr[2]}'

返回foooo barrrrr.

那么如何使用 awk (相当于grep -o)从字符串中提取多个数字?

答案1

使用用于多字符 RS 和 RT 的 GNU awk:

$ echo "blah foo123bar234blah" |
    awk -v RS='[0-9]+' '$0=RT'
123
234

使用任何 awk(并保留原始正则表达式而不是否定它,因为只有使用简单的括号表达式才容易,而不是强大的通用方法):

$ echo "blah foo123bar234blah" |
    awk -v FS='\n' '{gsub(/[0-9]+/,FS"&"FS); for (i=2;i<=NF;i+=2) print $i}'
123
234

或者:

$ echo "blah foo123bar234blah" |
    awk '{ while (match($0,/[0-9]+/) ) {print substr($0,RSTART,RLENGTH); $0=substr($0,RSTART+RLENGTH)} }'
123
234

答案2

match()函数执行一个单身的正则表达式的匹配。要使用match()GNU 中的正则表达式匹配来查找每组数字awk,您必须循环。

{
    str = $0
    while (match(str,"[0-9]+",a)) {
        print a[0]
        str = substr(str,RSTART+RLENGTH)
    }
}

我们只对a[0]这里感兴趣,因为我们在正则表达式中不使用括号。我们在表达式中不使用括号,因为我们不需要它们。如果我们想要将已知数量的整数与单个表达式(例如([0-9]+)[^0-9]+([0-9]+)等)匹配,我们可能需要括号,但在本练习中我们并不真正知道可能有多少个整数。

或者,使用标准awk,

{
    str = $0
    while (match(str,"[0-9]+")) {
        print substr(str,RSTART,RLENGTH)
        str = substr(str,RSTART+RLENGTH)
    }
}

这与 中的字符串中的连续数字相匹配str。对于每个匹配,都会打印匹配的字符串,并str使用 删除其中不再有趣的部分substr()

测试:

$ echo 'blah foo123bar234blah' | gawk '{ str = $0; while (match(str,"[0-9]+",a)) { print a[0]; str = substr(str,RSTART+RLENGTH) } }'
123
234

答案3

您可以使用和gsub()函数awk将每次出现的“不包含数字的子字符串”转换为单个空格,然后使用该split()函数在空格处分割结果字符串。这就像默认FS变量上的字段分割一样,并丢弃前导和尾随的“空字段”:

awk '{gsub(/[^0-9]+/," ");n=split($0,a);for (i=1;i<=n;i++) print a[i]}'

所以,对于你的例子:

~$ echo "blah foo123bar234blah" | awk '{gsub(/[^0-9]+/," ");n=split($0,a);for (i=1;i<=n;i++) print a[i]}'
123
234

答案4

如果您确实只想提取数字(以下示例中的自然数和零!),您可以定义其他任何内容作为字段分隔符:

awk 'BEGIN {FS="[^0-9]+"}
     {printf $1 ; for (i=2 ; i<=NF ; i++) { printf " "$i} ; printf "\n"}'

(添加了一些格式,以便它返回每条记录一行的空格分隔条目)

相关内容