在python中对字符串进行多部分选择

Question 1

还有很多功能可以优化你的新代码。最吸引我的是以下两件事：

不要对日志的每一行执行多次 split()，只需执行一次 split() 并将结果存储在变量中，因为每次执行此函数都需要一些时间（即使不多，但处理的数据越多，时间就越长）。

s = i.split(' ')
ip=s[6].split(':')[0]
user=s[5]

为什么要创建两个列表，然后将它们压缩在一起？只需将元组直接存储在列表中：

l = []
for i in data:
   s = i.split(' ')
   ip=s[6].split(':')[0]
   user=s[5]
   l.append(tuple((ip, user)))
top_used=collections.Counter(l).most_common(5)

Answer

还有很多功能可以优化你的新代码。最吸引我的是以下两件事：

不要对日志的每一行执行多次 split()，只需执行一次 split() 并将结果存储在变量中，因为每次执行此函数都需要一些时间（即使不多，但处理的数据越多，时间就越长）。

s = i.split(' ')
ip=s[6].split(':')[0]
user=s[5]

为什么要创建两个列表，然后将它们压缩在一起？只需将元组直接存储在列表中：

l = []
for i in data:
   s = i.split(' ')
   ip=s[6].split(':')[0]
   user=s[5]
   l.append(tuple((ip, user)))
top_used=collections.Counter(l).most_common(5)

Question 2

根据“shearn89”的建议，我修改了我的代码如下：

只需一次迭代即可变得简单得多。

userlist=[]
iplist=[]
for i in data:
    ip=i.split(' ')[6].split(':')[0]
    user=i.split(' ')[5]
    iplist.append(ip)
    userlist.append(user)

top_used=collections.Counter(zip(iplist,userlist)).most_common(5)
pprint.pprint(top_used)

Answer

根据“shearn89”的建议，我修改了我的代码如下：

只需一次迭代即可变得简单得多。

userlist=[]
iplist=[]
for i in data:
    ip=i.split(' ')[6].split(':')[0]
    user=i.split(' ')[5]
    iplist.append(ip)
    userlist.append(user)

top_used=collections.Counter(zip(iplist,userlist)).most_common(5)
pprint.pprint(top_used)

在python中对字符串进行多部分选择

答案1

答案2

相关内容