如何根据出现次数限制打印输出 (AWK)

Question

此 perl 脚本将符合条件（“image/”，> 100000 字节，referrer = '-'）的每个日志行存储在由 IP 地址作为键控的数组哈希中。在脚本末尾，它打印出每个包含超过 14 个条目的 IP 地址的每个数组行。

它使用大量内存，但不如存储每个输入行那么多。

您可以将其压缩为一行，但您只会无缘无故地使其不可读/不可调试。

#! /usr/bin/perl

use strict;

my %LOGLINES = ();

while (<>) {
    next unless (/\bimage\//);
    my @F=split("\t");
    next unless ($F[10] eq '-');
    next unless ($F[13] > 100000);

    push @{ $LOGLINES{$F[2]} }, $_;
};  

foreach my $key (sort keys %LOGLINES) {
   print @{ $LOGLINES{$key} } if (scalar @{ $LOGLINES{$key} } > 14);
}

请注意，perl 数组是从 0 开始的，而不是从 1 开始的。因此字段编号与您指定的字段编号偏移 -1。

这是另一个版本，它不使用尽可能多的内存，因为它只为它看到的每个 IP 地址存储最多 15 行，然后它开始打印它看到的匹配行。缺点是输出不按 IP 地址排序，但这可以通过管道到sort -t $'\t' -k2.

#! /usr/bin/perl

use strict;

my %LOGLINES = ();
my %count = ();

while (<>) {
    next unless (/\bimage\//);
    my @F=split("\t");
    next unless ($F[10] eq '-');
    next unless ($F[13] > 12000);

    $count{ $F[2] }++;

    if ($count{ $F[2] } == 15) {
      print @{ $LOGLINES{$F[2]} };   # print all the log lines we've seen so far
      print $_;                      # print the current line
    } elsif ($count{ $F[2] } > 15) {
      print $_;                      # print the current line
    } else {
      push @{ $LOGLINES{$F[2]} }, $_; # store the log line for later use
    }
};

Answer 1