grep 文件中的部分 ip 号码

Question 1

如果我理解正确的话，您想要解析 IP 列表并确定它们属于哪个 B 类或 C 类网络。如果任何此类网络出现超过 10 次，您需要在注释中打印 IP 及其所属网络

A.B.C.D   A.B.0.0/16  n

或者

A.B.C.D   A.B.C.0/24  n

分别写入输出文件spam.lst，其中n是相应子网的实际出现次数。

我为该任务提出以下awk程序（我们称之为sort.awk）：

#!/bin/awk -f

BEGIN{
    FS=OFS="."
}

NF==4{
    if (FNR==NR) {
        NF=cl
        count[$0]++
        next
    }
    for (n in count) {
        if (index($0,n)==1) {
            if (count[n]<=th) next
            printf "%s %s",$0,n
            for (i=cl;i<4;i++) printf ".0"
            printf "/%d %d\n",8*cl,count[n]
        }
    }
}

您可以这样称呼它：

awk -v cl=2 -v th=1 -f sort.awk ips.txt ips.txt> spam.lst

请注意，输入文件被处理两次，因此作为awk! 的参数出现两次。

该程序的工作原理如下：

您可以将 CIDR 网络类别指定为B 类网络或C 类网络的awk变量。cl23
您可以将要阻止整个子网的最小出现次数指定为awk变量th。
该程序将输入和输出分隔符设置为.将输入行拆分为字段.。
该脚本仅考虑包含 4 个字段的行（IP 的最低健全性检查）
在第一遍中（FNR每个文件行计数器等于NR全局行计数器），我们注册遇到的子网。对于每一行，字段编号被截断为 in 中的值，cl以将其截断为 B 类或 C 类网络“基地址”。然后，数组中这个（新生成的）基地址的计数器count增加，并且处理跳到下一行。
在第二遍中，我们迭代所有指数的count（即在第一遍中注册的所有子网）以查看当前行上的IP是否以该子网地址开头。如果关联计数大于阈值，我们输出当前 IP 地址，然后输出基地址，并在右侧填充和.0并附加 CIDR 表示法中的网络掩码，最后输出出现计数。

的输出cl=2以及th=1您显示的示例 IP 列表如下所示

108.61.115.213 108.61.0.0/16 2
108.61.199.100 108.61.0.0/16 2
138.68.224.206 138.68.0.0/16 2
138.68.235.36 138.68.0.0/16 2
148.66.129.250 148.66.0.0/16 2
148.66.130.114 148.66.0.0/16 2

最初的提议是为了整合到现有的脚本中，如下所示：

awk -v cl=2 -v nw="8.6.0.0" -F'.' 'BEGIN{split(nw,ref,/\./)} NF==4{for (i=1;i<=cl;i++) {if ($i!=ref[i]) next} printf "%s %s/%d\n",$0,nw,8*cl}' ips.txt

在这里，我们将解析 IP 列表，以检查它们是否与通过awk变量指定的给定网络基地址属于同一网络nw。

一开始，参考网络基础IP按字段拆分成一个数组ref。
对于遇到的每一行，程序首先检查它是否包含 4 个字段（IP 的最低健全性检查）。如果是，它会比较cl当前行和参考 IP 的第一个字段。如果其中任何一个不匹配，则跳过该行并继续处理下一行。如果所有相关字段都匹配，则打印 IP，然后打印 CIDR 表示法的网络。

Answer