从文本中提取某些值

Question 1

由于这些似乎本质上是 URL 查询的结构，您可能需要考虑使用专用的查询解析器 - 例如来自 pythonurlparse模块的解析器。例如

#!/usr/bin/python2

import sys,re
from urlparse import urlparse,parse_qs

keys = ['city', 'language', 'x', 'y', 'z']

with open(sys.argv[1],'r') as f:
        for line in f:
                u = urlparse(line.strip('\n'))
                q = parse_qs(u.query)

                # extract the strings we want from the dict-of-lists
                values = ','.join(['-'.join(q[key]) for key in keys])

                # extract the timestamp portion of the path (between `[` and `]`)
                m = re.search('(?<=\[).*?(?=\])', u.path)
                ts = m.group(0)

                # print as a comma-separated list
                print '{},{}'.format(ts, values)

然后

$ ./queryparse.py queries.txt
31/May/2016:11:58:29-0500,london,en,12345,6789,1
31/May/2016:11:59:15-0500,madrid,en,4589.4583,4865.5465,3
31/May/2016:12:05:13-0500,london,en,12345,6789,1
31/May/2016:12:15:13-0500,london,en,12345,6789,1
31/May/2016:12:26:53-0500,newyork,en,45724.75575,424424.77474,3

注意：该parse_qs方法返回一个列表字典，即它允许每个查询键有多个值：'-'.join(q[key])名义上将每个值列表变成连字符分隔的字符串，但是在这种情况下我们期望每个键只有一个值。

Answer

由于这些似乎本质上是 URL 查询的结构，您可能需要考虑使用专用的查询解析器 - 例如来自 pythonurlparse模块的解析器。例如

#!/usr/bin/python2

import sys,re
from urlparse import urlparse,parse_qs

keys = ['city', 'language', 'x', 'y', 'z']

with open(sys.argv[1],'r') as f:
        for line in f:
                u = urlparse(line.strip('\n'))
                q = parse_qs(u.query)

                # extract the strings we want from the dict-of-lists
                values = ','.join(['-'.join(q[key]) for key in keys])

                # extract the timestamp portion of the path (between `[` and `]`)
                m = re.search('(?<=\[).*?(?=\])', u.path)
                ts = m.group(0)

                # print as a comma-separated list
                print '{},{}'.format(ts, values)

然后

$ ./queryparse.py queries.txt
31/May/2016:11:58:29-0500,london,en,12345,6789,1
31/May/2016:11:59:15-0500,madrid,en,4589.4583,4865.5465,3
31/May/2016:12:05:13-0500,london,en,12345,6789,1
31/May/2016:12:15:13-0500,london,en,12345,6789,1
31/May/2016:12:26:53-0500,newyork,en,45724.75575,424424.77474,3

注意：该parse_qs方法返回一个列表字典，即它允许每个查询键有多个值：'-'.join(q[key])名义上将每个值列表变成连字符分隔的字符串，但是在这种情况下我们期望每个键只有一个值。

Question 2

由于顺序可能会改变，因此需要编写一些脚本。以下是 Perl 版本：

#!/usr/bin/perl -nl

my $time = $1 if /\[(.+?)\]/; 
my $city = $1 if /city=(.*?)(&|$)/;
my $lang = $1 if /language=(.*?)(&|$)/;
my $x = $1 if /\bx=(.*?)(&|$)/; 
my $y = $1 if /\by=(.*?)(&|$)/; 
my $z = $1 if /\bz=(.*?)(&|$)/;
print join ",", ($time, $city, $lang, $x, $y, $z)

将其另存为foo.pl，使其可执行（chmod +x foo.pl）并像这样运行它：

./foo.pl file.txt

您还可以将其压缩成“一行”：

perl -lne '$t=$1if/\[(.+?)\]/;$c=$1if/city=(.*?)(&|$)/;$l=$1if/language=(.*?)(&|$)/;$x=$1if/\bx=(.*?)(&|$)/;$y=$1if/\by=(.*?)(&|$)/;$z=$1if/\bz=(.*?)(&|$)/;print join",",($t,$c,$l,$x,$y,$z)' file

解释

意思-n是“逐行读取输入文件并将脚本应用到每一行。-l在每个调用中添加一个换行符print并从每个输入行中删除换行符。

在每种情况下，我们都使用正则表达式来查找目标字符串，并在找到匹配项时将其分配给变量。第一个正则表达式\[(.+?)\]匹配 a[和第一个之间的任何内容]。周围的括号.+是捕获组我们将捕获的内容称为$1。因此，$time将是里面的内容[ ]。

其他正则表达式遵循相同的思想。\b表示“非单词字符”，并确保y=不会匹配city等。(&|$)表示任何一个A& 或者行尾（$），用于捕获行末的模式。

最后，我们join用逗号分隔这些内容并打印出来。

Answer