有多个相关问题,似乎它们不能用来awk
解决问题。
echo "blah foo123bar234blah" | egrep -o '([0-9]+)'
回报
123
234
但
echo "blah foo123bar234blah" |
awk '{ match($0,/([0-9]+)/,m); print m[0], m[1],m[2]}'
返回123 123
和
echo "blah foo123bar234blah" |
awk '{ match($0,/([0-9]+).+([0-9]+)/,m); print m[0], m[1],m[2]}'
回报 123bar234 123 4
在手册,在部分:匹配(字符串,正则表达式[,数组]),例子是:
echo foooobazbarrrrr |
gawk '{ match($0, /(fo+).+(bar*)/, arr); print arr[1], arr[2]}'
返回foooo barrrrr
.
那么如何使用 awk (相当于grep -o
)从字符串中提取多个数字?
答案1
使用用于多字符 RS 和 RT 的 GNU awk:
$ echo "blah foo123bar234blah" |
awk -v RS='[0-9]+' '$0=RT'
123
234
使用任何 awk(并保留原始正则表达式而不是否定它,因为只有使用简单的括号表达式才容易,而不是强大的通用方法):
$ echo "blah foo123bar234blah" |
awk -v FS='\n' '{gsub(/[0-9]+/,FS"&"FS); for (i=2;i<=NF;i+=2) print $i}'
123
234
或者:
$ echo "blah foo123bar234blah" |
awk '{ while (match($0,/[0-9]+/) ) {print substr($0,RSTART,RLENGTH); $0=substr($0,RSTART+RLENGTH)} }'
123
234
答案2
该match()
函数执行一个单身的正则表达式的匹配。要使用match()
GNU 中的正则表达式匹配来查找每组数字awk
,您必须循环。
{
str = $0
while (match(str,"[0-9]+",a)) {
print a[0]
str = substr(str,RSTART+RLENGTH)
}
}
我们只对a[0]
这里感兴趣,因为我们在正则表达式中不使用括号。我们在表达式中不使用括号,因为我们不需要它们。如果我们想要将已知数量的整数与单个表达式(例如([0-9]+)[^0-9]+([0-9]+)
等)匹配,我们可能需要括号,但在本练习中我们并不真正知道可能有多少个整数。
或者,使用标准awk
,
{
str = $0
while (match(str,"[0-9]+")) {
print substr(str,RSTART,RLENGTH)
str = substr(str,RSTART+RLENGTH)
}
}
这与 中的字符串中的连续数字相匹配str
。对于每个匹配,都会打印匹配的字符串,并str
使用 删除其中不再有趣的部分substr()
。
测试:
$ echo 'blah foo123bar234blah' | gawk '{ str = $0; while (match(str,"[0-9]+",a)) { print a[0]; str = substr(str,RSTART+RLENGTH) } }'
123
234
答案3
您可以使用和gsub()
函数awk
将每次出现的“不包含数字的子字符串”转换为单个空格,然后使用该split()
函数在空格处分割结果字符串。这就像默认FS
变量上的字段分割一样,并丢弃前导和尾随的“空字段”:
awk '{gsub(/[^0-9]+/," ");n=split($0,a);for (i=1;i<=n;i++) print a[i]}'
所以,对于你的例子:
~$ echo "blah foo123bar234blah" | awk '{gsub(/[^0-9]+/," ");n=split($0,a);for (i=1;i<=n;i++) print a[i]}'
123
234
答案4
如果您确实只想提取数字(以下示例中的自然数和零!),您可以定义其他任何内容作为字段分隔符:
awk 'BEGIN {FS="[^0-9]+"}
{printf $1 ; for (i=2 ; i<=NF ; i++) { printf " "$i} ; printf "\n"}'
(添加了一些格式,以便它返回每条记录一行的空格分隔条目)