使用 AWK 读取列中的重复项

Question 1

使用 GNU awk 执行 mktime()：

$ cat tst.awk
BEGIN { FS = "|" }
(++count[$2]) ~ /^[15]$/ {
    split($1,t,"[/:]")
    monthNr = (index("JanFebMarAprMayJunJulAugSepOctNovDec",t[2])+2)/3
    currSecs = mktime(t[3] " " monthNr " " t[1] " " t[4] " " t[5] " " t[6])

    if ( count[$2] == 1 ) {
        firstSecs[$2] = currSecs
    }
    else if ( (currSecs - firstSecs[$2]) < 15 ) {
        print $2
    }
}

$ awk -f tst.awk file
000.111.026.111
060.121.125.144

我认为它在做什么非常清楚，因此无需添加文字解释，但如果您有任何问题，请随时询问。

哦，您在评论中提到希望您知道一种将 IP 地址转换为虚拟值的方法，以便您可以发布更全面的示例，这是一种足以解决您的特定问题的方法：

$ awk '
    BEGIN { FS=OFS="|" }
    !($2 in map) { ip=sprintf("%012d",++cnt); gsub(/.../,"&.",ip); sub(/.$/,"",ip); map[$2]=ip }
    { $2=map[$2]; print }
' file
29/Oct/2020:07:41:42|000.000.000.001|200|/page-a/
29/Oct/2020:08:30:40|000.000.000.002|200|/page-a/
29/Oct/2020:08:30:44|000.000.000.002|200|/page-b/
29/Oct/2020:08:30:45|000.000.000.002|200|/page-c/
29/Oct/2020:08:30:47|000.000.000.002|200|/page-d/
29/Oct/2020:08:30:47|000.000.000.003|200|/page-h/
29/Oct/2020:08:30:48|000.000.000.002|200|/page-e/
29/Oct/2020:07:41:49|000.000.000.004|200|/page-a/
29/Oct/2020:08:41:52|000.000.000.005|200|/page-f/
29/Oct/2020:08:41:52|000.000.000.005|200|/page-g/
29/Oct/2020:08:41:54|000.000.000.002|200|/page-k/
29/Oct/2020:08:41:55|000.000.000.005|200|/page-l/
29/Oct/2020:08:41:57|000.000.000.005|200|/page-n/
29/Oct/2020:08:41:58|000.000.000.005|200|/page-s/

编辑：您可以通过以下方式开始调查我的脚本生成的输出与您运行的 Daves 脚本版本生成的输出之间的差异：

$ awk -f morton-botfilter.awk.txt output3test.csv > morton.out
$ awk -f dave-botfilter.awk.txt output3test.csv > dave.out
$ ip=$(comm -13 <(sort morton.out) <(sort dave.out) | head -1)
$ grep "$ip" output3test.csv | head -5
03/Nov/2020:07:52:55|000.000.000.007|200|/page-7/
03/Nov/2020:08:05:32|000.000.000.007|200|/page-11/
03/Nov/2020:11:28:56|000.000.000.007|200|/page-77/
03/Nov/2020:13:52:32|000.000.000.007|200|/page-143/
03/Nov/2020:13:52:33|000.000.000.007|200|/page-144/

请注意，上面的第一个时间戳和最后一个时间戳之间的间隔远远超过 15 秒，这表明 dave-botfilter.awk.txt 中的脚本已损坏。请参阅下面的评论以获取更多信息。

Answer

使用 GNU awk 执行 mktime()：

$ cat tst.awk
BEGIN { FS = "|" }
(++count[$2]) ~ /^[15]$/ {
    split($1,t,"[/:]")
    monthNr = (index("JanFebMarAprMayJunJulAugSepOctNovDec",t[2])+2)/3
    currSecs = mktime(t[3] " " monthNr " " t[1] " " t[4] " " t[5] " " t[6])

    if ( count[$2] == 1 ) {
        firstSecs[$2] = currSecs
    }
    else if ( (currSecs - firstSecs[$2]) < 15 ) {
        print $2
    }
}

$ awk -f tst.awk file
000.111.026.111
060.121.125.144

我认为它在做什么非常清楚，因此无需添加文字解释，但如果您有任何问题，请随时询问。

哦，您在评论中提到希望您知道一种将 IP 地址转换为虚拟值的方法，以便您可以发布更全面的示例，这是一种足以解决您的特定问题的方法：

$ awk '
    BEGIN { FS=OFS="|" }
    !($2 in map) { ip=sprintf("%012d",++cnt); gsub(/.../,"&.",ip); sub(/.$/,"",ip); map[$2]=ip }
    { $2=map[$2]; print }
' file
29/Oct/2020:07:41:42|000.000.000.001|200|/page-a/
29/Oct/2020:08:30:40|000.000.000.002|200|/page-a/
29/Oct/2020:08:30:44|000.000.000.002|200|/page-b/
29/Oct/2020:08:30:45|000.000.000.002|200|/page-c/
29/Oct/2020:08:30:47|000.000.000.002|200|/page-d/
29/Oct/2020:08:30:47|000.000.000.003|200|/page-h/
29/Oct/2020:08:30:48|000.000.000.002|200|/page-e/
29/Oct/2020:07:41:49|000.000.000.004|200|/page-a/
29/Oct/2020:08:41:52|000.000.000.005|200|/page-f/
29/Oct/2020:08:41:52|000.000.000.005|200|/page-g/
29/Oct/2020:08:41:54|000.000.000.002|200|/page-k/
29/Oct/2020:08:41:55|000.000.000.005|200|/page-l/
29/Oct/2020:08:41:57|000.000.000.005|200|/page-n/
29/Oct/2020:08:41:58|000.000.000.005|200|/page-s/

编辑：您可以通过以下方式开始调查我的脚本生成的输出与您运行的 Daves 脚本版本生成的输出之间的差异：

$ awk -f morton-botfilter.awk.txt output3test.csv > morton.out
$ awk -f dave-botfilter.awk.txt output3test.csv > dave.out
$ ip=$(comm -13 <(sort morton.out) <(sort dave.out) | head -1)
$ grep "$ip" output3test.csv | head -5
03/Nov/2020:07:52:55|000.000.000.007|200|/page-7/
03/Nov/2020:08:05:32|000.000.000.007|200|/page-11/
03/Nov/2020:11:28:56|000.000.000.007|200|/page-77/
03/Nov/2020:13:52:32|000.000.000.007|200|/page-143/
03/Nov/2020:13:52:33|000.000.000.007|200|/page-144/

请注意，上面的第一个时间戳和最后一个时间戳之间的间隔远远超过 15 秒，这表明 dave-botfilter.awk.txt 中的脚本已损坏。请参阅下面的评论以获取更多信息。

Question 2

既然你想学习 awk，并且显然已经GNUawk (gawk)，awk -f script <logfile其中script包含

BEGIN{ split("Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec",n2m);
  for(i=1;i<=12;i++) m2n[n2m[i]]=i; FS="|"; }
function fixtime(str ,tmp){ split(str,tmp,"[:/]");
  return mktime(tmp[3] OFS m2n[tmp[2]] OFS tmp[1] OFS tmp[4] OFS tmp[5] OFS tmp[6]) }
++count[$2]==1 { first[$2]=fixtime($1) }
count[$2]==5 && fixtime($1)-first[$2]<15 { print $2 }

前两行设置了一个数组 m2n（月份到数字），它将 Jan 映射到 1，Feb 映射到 2 等，并将字段分隔符设置为|。（它可以代替做m2n["Jan"]=1; m2n["Feb"]=2;等等，但这更乏味。

接下来的两行定义了一个函数，该函数使用 all/和:作为分隔符来分割时间格式（无需首先将它们转换为空格），将月份名称转换为数字，根据需要重新排序并提供给mktime()（仅限 gawk）。您可以使用文字来代替 OFS（默认为一个空格且未更改），" "但我发现这更难看。

第五行和第六行找到第一的出现任何 IPaddr 并记住其时间戳，以及第五检测是否出现相同的 IPaddr，并将其时间戳与记住的时间戳进行比较，看间隔是否小于 15 秒。有些人会;next在第五行的操作中添加一个，以明确第五和第六脚本行不会在同一记录（即数据行）上执行，但我没有打扰。

优质教育基金。

如果您愿意，可以将整个脚本放在命令行中，'...'而不是使用脚本文件，但我不喜欢这样做超过 100 个字符。

Answer

既然你想学习 awk，并且显然已经GNUawk (gawk)，awk -f script <logfile其中script包含

BEGIN{ split("Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec",n2m);
  for(i=1;i<=12;i++) m2n[n2m[i]]=i; FS="|"; }
function fixtime(str ,tmp){ split(str,tmp,"[:/]");
  return mktime(tmp[3] OFS m2n[tmp[2]] OFS tmp[1] OFS tmp[4] OFS tmp[5] OFS tmp[6]) }
++count[$2]==1 { first[$2]=fixtime($1) }
count[$2]==5 && fixtime($1)-first[$2]<15 { print $2 }

前两行设置了一个数组 m2n（月份到数字），它将 Jan 映射到 1，Feb 映射到 2 等，并将字段分隔符设置为|。（它可以代替做m2n["Jan"]=1; m2n["Feb"]=2;等等，但这更乏味。

接下来的两行定义了一个函数，该函数使用 all/和:作为分隔符来分割时间格式（无需首先将它们转换为空格），将月份名称转换为数字，根据需要重新排序并提供给mktime()（仅限 gawk）。您可以使用文字来代替 OFS（默认为一个空格且未更改），" "但我发现这更难看。

第五行和第六行找到第一的出现任何 IPaddr 并记住其时间戳，以及第五检测是否出现相同的 IPaddr，并将其时间戳与记住的时间戳进行比较，看间隔是否小于 15 秒。有些人会;next在第五行的操作中添加一个，以明确第五和第六脚本行不会在同一记录（即数据行）上执行，但我没有打扰。

优质教育基金。

如果您愿意，可以将整个脚本放在命令行中，'...'而不是使用脚本文件，但我不喜欢这样做超过 100 个字符。

Question 3

#!/bin/bash
awk -v mon=$(locale abmon) -v FS='[/:|]' '
BEGIN           {for(n=split(mon, M, ";"); n; n--) Mn[M[n]]=n}
!A[$7]++        {IP[$7] = mktime($3" "Mn[$2]" "$1" "$4" "$5" "$6)}
A[$7]==5 && mktime($3" "Mn[$2]" "$1" "$4" "$5" "$6) - IP[$7] < 15 {print $7}
' file > bot_ip

-v mon=$(locale abmon)- 该变量mon被分配以下行：Jan;Feb;Mar;Apr;May;Jun;Jul;Aug;Sep;Oct;Nov;Dec
for(n=split(mon, M, ";"); n; n--)- 该函数返回我们在循环split中启动计数器的数组元素的数量for

Answer

#!/bin/bash
awk -v mon=$(locale abmon) -v FS='[/:|]' '
BEGIN           {for(n=split(mon, M, ";"); n; n--) Mn[M[n]]=n}
!A[$7]++        {IP[$7] = mktime($3" "Mn[$2]" "$1" "$4" "$5" "$6)}
A[$7]==5 && mktime($3" "Mn[$2]" "$1" "$4" "$5" "$6) - IP[$7] < 15 {print $7}
' file > bot_ip

-v mon=$(locale abmon)- 该变量mon被分配以下行：Jan;Feb;Mar;Apr;May;Jun;Jul;Aug;Sep;Oct;Nov;Dec
for(n=split(mon, M, ";"); n; n--)- 该函数返回我们在循环split中启动计数器的数组元素的数量for

Question 4

您可能不只是查看第二个字段的第 1 次和第 5 次出现，而是希望查看相隔 5 次出现的所有情况。滑动窗口方法：

awk '
{
    n = c[$7] = ++c[$7] % 4
    m = index("..JanFebMarAprMayJunJulAugSepOctNovDec",$2)/3
    s = mktime($3 " " m " " $1 " " $4 " " $5 " " $6)
    if (s - t[$7,n] < 15 && !seen[$7]++) {
        print
    }
    t[$7,n] = s
}
' FS='[/:|]' output.csv

Answer

您可能不只是查看第二个字段的第 1 次和第 5 次出现，而是希望查看相隔 5 次出现的所有情况。滑动窗口方法：

awk '
{
    n = c[$7] = ++c[$7] % 4
    m = index("..JanFebMarAprMayJunJulAugSepOctNovDec",$2)/3
    s = mktime($3 " " m " " $1 " " $4 " " $5 " " $6)
    if (s - t[$7,n] < 15 && !seen[$7]++) {
        print
    }
    t[$7,n] = s
}
' FS='[/:|]' output.csv

使用 AWK 读取列中的重复项

我尝试过的

想要的结果

答案1

答案2

答案3

答案4

相关内容