从日志文件中捕获并汇编姓名列表

Question 1

我只会使用grep和sort -u：

$ grep -Po '/elv/\K[^/]+' NASA_access_log_Aug95.txt | sort -u
ATLAS_CENTAUR
DELTA
TITAN

启用-PPerl 兼容正则表达式，让我们使用\K表示“忽略到此点为止的所有内容”。表示-o“仅显示行的匹配部分”。然后，正则表达式表示“查找/elv/，忽略到为止的所有内容/elv/，然后查找一个或多个非/字符（[^/]+）。

Answer

我只会使用grep和sort -u：

$ grep -Po '/elv/\K[^/]+' NASA_access_log_Aug95.txt | sort -u
ATLAS_CENTAUR
DELTA
TITAN

启用-PPerl 兼容正则表达式，让我们使用\K表示“忽略到此点为止的所有内容”。表示-o“仅显示行的匹配部分”。然后，正则表达式表示“查找/elv/，忽略到为止的所有内容/elv/，然后查找一个或多个非/字符（[^/]+）。

Question 2

你只需要：

awk -F'/' '/elv/ && !seen[$5]++ {print $5}' infile

/如果之前未在名为的数组中设置，则此操作将打印每个斜线的第五个字段作为字段分隔符，seen并且该行应包含elv。另请参阅awk'！a[$0]++'如何工作？和这个答案在 Stack Overflow 上。

对于给定的样本，输出将是：

TITAN
DELTA
ATLAS_CENTAUR

Answer

你只需要：

awk -F'/' '/elv/ && !seen[$5]++ {print $5}' infile

/如果之前未在名为的数组中设置，则此操作将打印每个斜线的第五个字段作为字段分隔符，seen并且该行应包含elv。另请参阅awk'！a[$0]++'如何工作？和这个答案在 Stack Overflow 上。

对于给定的样本，输出将是：

TITAN
DELTA
ATLAS_CENTAUR

Question 3

你可以这样做：

grep 'elv' NASA_access_log_Aug95.txt | awk '{print $7}' | sed 's/[a-z0-9./]//g' | sort -u

给出日志文件中的示例代码片段，这将输出：

ATLAS_CENTAUR
DELTA
TITAN

按管道命令出现的顺序进行解释：

grep 'elv' NASA_access_log_Aug95.txt

将输出包含以下内容的所有行elv

cc-rd6-mg1-dip4-9.massey.ac.nz - - [03/Aug/1995:20:43:31 -0400] "GET /elv/TITAN/mars1s.jpg HTTP/1.0" 200 1156
www-a2.proxy.aol.com - - [03/Aug/1995:20:43:31 -0400] "GET /elv/DELTA/dsolids.jpg HTTP/1.0" 200 24558
cc-rd6-mg1-dip4-9.massey.ac.nz - - [03/Aug/1995:20:43:32 -0400] "GET /elv/TITAN/mars3s.jpg HTTP/1.0" 200 1744
cc-rd6-mg1-dip4-9.massey.ac.nz - - [03/Aug/1995:20:43:33 -0400] "GET /elv/ATLAS_CENTAUR/atc69s.jpg HTTP/1.0" 200 1659
cc-rd6-mg1-dip4-9.massey.ac.nz - - [03/Aug/1995:20:43:35 -0400] "GET /elv/TITAN/mars2s.jpg HTTP/1.0" 200 1549
cc-rd6-mg1-dip4-9.massey.ac.nz - - [03/Aug/1995:20:43:40 -0400] "GET /elv/ATLAS_CENTAUR/acsuns.jpg HTTP/1.0" 200 2263
cc-rd6-mg1-dip4-9.massey.ac.nz - - [03/Aug/1995:20:43:41 -0400] "GET /elv/ATLAS_CENTAUR/goess.jpg HTTP/1.0" 200 1306
cc-rd6-mg1-dip4-9.massey.ac.nz - - [03/Aug/1995:20:43:45 -0400] "GET /elv/DELTA/dsolidss.jpg HTTP/1.0" 200 1629

awk '{print $7}'

将为您提供第 7 列信息（您想要的信息）。请记住，这会计算用空格分隔的列。

/elv/TITAN/mars1s.jpg
/elv/DELTA/dsolids.jpg
/elv/TITAN/mars3s.jpg
/elv/ATLAS_CENTAUR/atc69s.jpg
/elv/TITAN/mars2s.jpg
/elv/ATLAS_CENTAUR/acsuns.jpg
/elv/ATLAS_CENTAUR/goess.jpg
/elv/DELTA/dsolidss.jpg

sed 's/[a-z0-9./]//g'

将过滤掉所有不需要的字符（即小写a-z、数字0-9和.）/
```
TITAN
DELTA
TITAN
ATLAS_CENTAUR
TITAN
ATLAS_CENTAUR
ATLAS_CENTAUR
DELTA
```
sort -u

将防止重复出现并按字母顺序排序。
```
ATLAS_CENTAUR
DELTA
TITAN
```

Answer