解析 NCSA 组合日志文件的方法

Question 1

使用 Perl，在为 darwin-thread-multi-2level（OSX）构建的 v5.10.0 上进行测试

要打印 UserAgent 列：

perl -n -e '/^([^ ]+) ([^ ]+) ([^ ]+) (\[[^\]]+\]) "(.*) (.*) (.*)" ([0-9\-]+) ([0-9\-]+) "(.*)" "(.*)"/; print "$11\n"' -- test.log

我偷了并修改了我在 Google 上搜索到的 perlre来自 PHP 手册。我$从 re 的末尾删除了以支持基于 NCSA 组合的自定义格式。该模式可以轻松扩展以提供更多组。

正则表达式组()最终作为局部$1变量$n

快速而简单并且非常容易扩展和编写脚本。

管道输出的一些示例：

欢迎批评和改进

Answer

使用 Perl，在为 darwin-thread-multi-2level（OSX）构建的 v5.10.0 上进行测试

要打印 UserAgent 列：

perl -n -e '/^([^ ]+) ([^ ]+) ([^ ]+) (\[[^\]]+\]) "(.*) (.*) (.*)" ([0-9\-]+) ([0-9\-]+) "(.*)" "(.*)"/; print "$11\n"' -- test.log

我偷了并修改了我在 Google 上搜索到的 perlre来自 PHP 手册。我$从 re 的末尾删除了以支持基于 NCSA 组合的自定义格式。该模式可以轻松扩展以提供更多组。

正则表达式组()最终作为局部$1变量$n

快速而简单并且非常容易扩展和编写脚本。

管道输出的一些示例：

欢迎批评和改进

Question 2

虽然它不直接解决文本限定问题，但组合格式中可以利用的一个因素是剩余的空格分隔列始终位于同一列中。因此，您可以使用带有 printf 和 NF（列数）的循环来解决这个问题

根据 awk，$0 是整个输入行，$1 是第一列，$2 是第二列，$NF 是最后一列。

因此，对于标准 NCSA 组合，用户代理是列 $13 到列 $NF

我需要删除第一列并将其与修改后的日志格式的最后一列交换（代理 IP 被添加到最后一列）。

因此应该返回的是 $NF 列，然后是第二列 ($2)，然后是其余列，直到 NF - 1

我能够通过以下方式做到这一点：-

awk '{ printf "%s ", $NF; for (i=2; i<=NF-1; i++) printf "%s ", $i; printf "\n";}' < /var/log/nginx/access.log

Answer