使用 awk 或 bash 中的类似工具确定唯一行的数量

Question 1

您可以让 awk 计算唯一实例，如下所示：

awk -F\" '/CONNECT/ && !seen[$2] { seen[$2]++ } END { print length(seen) }' logfile

输出：

CONNECT这将从哈希数组中包含的行中收集第一个双引号字符串seen。当到达输入末尾时，seen将打印元素的数量。

Answer

您可以让 awk 计算唯一实例，如下所示：

awk -F\" '/CONNECT/ && !seen[$2] { seen[$2]++ } END { print length(seen) }' logfile

输出：

CONNECT这将从哈希数组中包含的行中收集第一个双引号字符串seen。当到达输入末尾时，seen将打印元素的数量。

Question 2

sed -re 's/.*"([^"]*)".*/\1/' <logfile> |sort |uniq

Awk 变体：awk -F'"' {print $2} <logfile> |sort |uniq

添加-c到uniq以获取每个匹配行的计数，或|wc -l获取匹配行的数量。

Answer

sed -re 's/.*"([^"]*)".*/\1/' <logfile> |sort |uniq

Awk 变体：awk -F'"' {print $2} <logfile> |sort |uniq

添加-c到uniq以获取每个匹配行的计数，或|wc -l获取匹配行的数量。

Question 3

通过 sort | uniq 运行日志文件应该会过滤掉重复的行，但我想问一下为什么会有这些行。它们真的是重复的吗？

如果它们是合法的日志条目，而您想要的只是一个不重复的行的客户端的唯一列表（第二个字段），那么对@Thor 的脚本进行简单修改就可以得到您想要的东西：

awk '
/CONNECT/ {
  if (seen[$0] == 0) {
    clients[$3]++
  }
  seen[$0]++ 
} 
END {
  for (i in clients) {
    print i
  }
}'

对于您给出的样本，其结果是：

192.168.2.3

这不像 Thor 的脚本那么紧凑，但是我通常发现，一旦我写了这样的东西，我就想对这些行本身做更多的事情，所以我把看到的数组（跟踪唯一行的数量）留在了那里。

Answer

通过 sort | uniq 运行日志文件应该会过滤掉重复的行，但我想问一下为什么会有这些行。它们真的是重复的吗？

如果它们是合法的日志条目，而您想要的只是一个不重复的行的客户端的唯一列表（第二个字段），那么对@Thor 的脚本进行简单修改就可以得到您想要的东西：

awk '
/CONNECT/ {
  if (seen[$0] == 0) {
    clients[$3]++
  }
  seen[$0]++ 
} 
END {
  for (i in clients) {
    print i
  }
}'

对于您给出的样本，其结果是：

192.168.2.3

这不像 Thor 的脚本那么紧凑，但是我通常发现，一旦我写了这样的东西，我就想对这些行本身做更多的事情，所以我把看到的数组（跟踪唯一行的数量）留在了那里。

相关内容