在python中对字符串进行多部分选择

在python中对字符串进行多部分选择

我有一个如下的日志文件:

12-02-2022 15:18:22 +0330 SOCK5.6699 00000 user144 97.251.107.125:38605 1.1.1.1:443 51766 169369 0 CONNECT 1.1.1.1:443
12-02-2022 15:18:27 +0330 SOCK5.6699 00094 user156 32.99.193.2:51242 1.1.1.1:443 715 388 0 CONNECT 1.1.1.1:443
12-02-2022 15:18:56 +0330 SOCK5.6699 00000 user105 191.184.66.98:40048 1.1.1.1:443 18105 29029 0 CONNECT 1.1.1.1:443
12-02-2022 15:18:56 +0330 SOCK5.6699 00000 user105 191.184.66.98:40070 1.1.1.1:443 674 26805 0 CONNECT 1.1.1.1:443
12-02-2022 15:20:24 +0330 SOCK5.6699 00000 user143 112.199.63.119:60682 1.1.1.1:443 475 445 0 CONNECT 1.1.1.1:443
12-02-2022 15:20:37 +0330 SOCK5.6699 00000 user105 191.184.66.98:40102 1.1.1.1:443 12913 18780 0 CONNECT 1.1.1.1:443
12-02-2022 15:20:42 +0330 SOCK5.6699 00000 user143 112.199.63.119:60688 1.1.1.1:443 4530 34717 0 CONNECT 1.1.1.1:443
12-02-2022 15:20:44 +0330 SOCK5.6699 00000 user127 212.167.145.49:2972 1.1.1.1:443 827 267 0 CONNECT 1.1.1.1:443

我的目标是提取该日志文件的两部分:

  1. 用户名
  2. 用户来源IP地址

以下是所需数​​据部分的示例。

2022 年 2 月 12 日 15:18:22 +0330 SOCK5.6699 00000用户144 97.251.107.125:38605 1.1.1.1:443 51766 169369 0 连接 1.1.1.1:443

所以我编写了一个 Python 脚本来提取这两个项目并将它们存储在单独的列表中,然后使用 zip 函数将它们连接起来。

import pprint
import collections

iplist=[]
for l in data:
    ip_port=l[53:71]
    iplist.append(ip_port.split(':')[0])


userlist=[]
for u in data:
    user=u[42:52]
    userlist.append(user.replace(" ", ""))

a=list(zip(iplist,userlist))
most_ip=collections.Counter(a).most_common(5)
pprint.pprint(most_ip)

这段代码运行良好,我能够获取最常用的 IP 及其对应的用户名。还需要说明的是,我没有使用关于模块,因为它列出了第二个 IP(目标 IP 是 1.1.1.1 - 我不关心它)

问题: 除了我编写代码的方式之外,还有其他方法吗(更简洁)?

答案1

还有很多功能可以优化你的新代码。最吸引我的是以下两件事:

不要对日志的每一行执行多次 split(),只需执行一次 split() 并将结果存储在变量中,因为每次执行此函数都需要一些时间(即使不多,但处理的数据越多,时间就越长)。

s = i.split(' ')
ip=s[6].split(':')[0]
user=s[5]

为什么要创建两个列表,然后将它们压缩在一起?只需将元组直接存储在列表中:

l = []
for i in data:
   s = i.split(' ')
   ip=s[6].split(':')[0]
   user=s[5]
   l.append(tuple((ip, user)))
top_used=collections.Counter(l).most_common(5)

答案2

根据“shearn89”的建议,我修改了我的代码如下:

只需一次迭代即可变得简单得多。

userlist=[]
iplist=[]
for i in data:
    ip=i.split(' ')[6].split(':')[0]
    user=i.split(' ')[5]
    iplist.append(ip)
    userlist.append(user)

top_used=collections.Counter(zip(iplist,userlist)).most_common(5)
pprint.pprint(top_used)

相关内容