如何从 access.log 中提取唯一域？

Question 1

在这种情况下，我非常喜欢使用 Perl 环视的 grep

grep -oP '(?<=http://).*(?=;)' access.log | sort -u

将使用您的示例返回一个列表，如下所示

$ grep -oP '(?<=http://).*(?=;)' access.log | sort -u
demo.otherdomain.com/blog
my.example.com
somedomain.com

Answer

在这种情况下，我非常喜欢使用 Perl 环视的 grep

grep -oP '(?<=http://).*(?=;)' access.log | sort -u

将使用您的示例返回一个列表，如下所示

$ grep -oP '(?<=http://).*(?=;)' access.log | sort -u
demo.otherdomain.com/blog
my.example.com
somedomain.com

Question 2

 awk '{for(i=1;i<=NF;i++)if($i ~ /^http:\/\//)print $i}' access.log |sort -u

https如果你也想解析的话

awk '{for(i=1;i<=NF;i++)if($i ~ /^http(s)?:\/\//)print $i}' access.log |sort -u

您也可以使用tr删除尾随分号

awk '{for(i=1;i<=NF;i++)if($i ~ /^http(s)?:\/\//)print $i}' access.log |tr -d ';' |sort -u

Answer

 awk '{for(i=1;i<=NF;i++)if($i ~ /^http:\/\//)print $i}' access.log |sort -u

https如果你也想解析的话

awk '{for(i=1;i<=NF;i++)if($i ~ /^http(s)?:\/\//)print $i}' access.log |sort -u

您也可以使用tr删除尾随分号

awk '{for(i=1;i<=NF;i++)if($i ~ /^http(s)?:\/\//)print $i}' access.log |tr -d ';' |sort -u

Question 3

awk '{ print $13 }' access.log | sort -u

我认为作为一个基本的尝试。 awk 将选择每行的第 13 个字段，使用空格作为分隔符，并将其通过管道传输到 sort，这将对 url 进行排序并删除多个（-u对于 uniq）。

如果只有某些行包含信息，或者它们不会全部都是这种格式，您需要先 grep 文件，以选择适用于哪些行。

Answer

awk '{ print $13 }' access.log | sort -u

我认为作为一个基本的尝试。 awk 将选择每行的第 13 个字段，使用空格作为分隔符，并将其通过管道传输到 sort，这将对 url 进行排序并删除多个（-u对于 uniq）。

如果只有某些行包含信息，或者它们不会全部都是这种格式，您需要先 grep 文件，以选择适用于哪些行。

相关内容