从nginx访问日志文件中查找访问/page1但不访问/page2的IP地址

Question 1

awk '/^\/page1?/ {print $1}' /path/to/access.log | sort -u > result.txt

如果您想要每个唯一 IP 的计数，请更改sort -u为sort | uniq -c

如果您只想将日志的请求路径字段（而不是整行）与/page1：

awk '$7 ~ /^\/page1?/ {print $1}' /path/to/access.log | sort -u > result.txt

注意：我认为nginx访问日志与apache访问日志相同。如果没有，则对字段进行计数（count每一个空格（包括 nginx 日志中的 Date:Time 和 TimeZone 之间的空格），并使用正确的字段编号而不是$7

最后，如果您想打印 IP 地址（或主机名，如果已解析）和请求路径：

awk -v OFS='\t' '$7 ~ /^\/page1?/ {print $1, $7}' /path/to/access.log |
    sort -u > result.txt

查看已访问过/page1但从未访问过的IP 地址/page2：

awk '$7 ~ /^\/page1?/ {print $1}' /path/to/access.log | sort -u > result1.txt
awk '$7 ~ /^\/page2?/ {print $1}' /path/to/access.log | sort -u > result2.txt
comm -2 -3 result1.txt result2.txt

comm的-2选项会抑制仅出现在中的行result2.txt，并-3抑制同时出现在两个文件中的行。因此，输出是仅出现在中的行results1.txt。

请参阅man comm了解更多详细信息。

Answer

awk '/^\/page1?/ {print $1}' /path/to/access.log | sort -u > result.txt