使用脚本（bash、awk 或类似脚本）修剪文件中其他域的子域

Question 1

尝试这个，

rev file \
| sort -u \
| tr '.' ',' \
| awk '$0!~dom_regex{print;dom_regex="^"$0"[.]";};NR==1{dom_regex="^"$0"[.]";print};' \
| tr ',' '.' \
| rev

输出：

4.3.2.1.domain.org
domain.com
anotherdomain.com
domain.net

解释：

sort反转文件并消除重复行。此步骤将把“一种”的域/子域与前面最短的域/子域分组在一起。
该awk部分将查看下一个是否属于同一类型（在变量中保存为正则表达式dom_regex）。如果没有，它将打印该行并设置新的dom_regex。否则，该行将被跳过。
再次反转文件。

Answer

尝试这个，

rev file \
| sort -u \
| tr '.' ',' \
| awk '$0!~dom_regex{print;dom_regex="^"$0"[.]";};NR==1{dom_regex="^"$0"[.]";print};' \
| tr ',' '.' \
| rev

输出：

4.3.2.1.domain.org
domain.com
anotherdomain.com
domain.net

解释：

sort反转文件并消除重复行。此步骤将把“一种”的域/子域与前面最短的域/子域分组在一起。
该awk部分将查看下一个是否属于同一类型（在变量中保存为正则表达式dom_regex）。如果没有，它将打印该行并设置新的dom_regex。否则，该行将被跳过。
再次反转文件。

Question 2

这是另一个版本

sed 's/^/\./' file |
    rev |
    LC_ALL=C sort -u |
    awk 'p == "" || substr($0,1,length(p)) != p { print $0; p = $0 }' |
    rev |
    sed 's/^\.//'

输入

domain.com
domain.net
sub.domain.com
anotherdomain.com
a.b.c.d.e.domain.net
5.4.3.2.1.domain.org
4.3.2.1.domain.org
b.c
a-b.c
b.b.c
btcapp.api.btc.com
btc.com

输出

a-b.c
b.c
4.3.2.1.domain.org
btc.com
domain.com
anotherdomain.com
domain.net

尝试使用您推荐的数据集http://p.ip.fi/WRD-，我收集的源文件包含 59683 行，过滤后的列表有 34824 行。我看到有 36 行应用于grep btc.com | wc -l过滤后的列表。

Answer

这是另一个版本

sed 's/^/\./' file |
    rev |
    LC_ALL=C sort -u |
    awk 'p == "" || substr($0,1,length(p)) != p { print $0; p = $0 }' |
    rev |
    sed 's/^\.//'

输入

domain.com
domain.net
sub.domain.com
anotherdomain.com
a.b.c.d.e.domain.net
5.4.3.2.1.domain.org
4.3.2.1.domain.org
b.c
a-b.c
b.b.c
btcapp.api.btc.com
btc.com

输出

a-b.c
b.c
4.3.2.1.domain.org
btc.com
domain.com
anotherdomain.com
domain.net

尝试使用您推荐的数据集http://p.ip.fi/WRD-，我收集的源文件包含 59683 行，过滤后的列表有 34824 行。我看到有 36 行应用于grep btc.com | wc -l过滤后的列表。

Question 3

如果您只有一个域名扩展，请尝试此操作。

awk -F '.' '!seen[$(NF-1)"."$NF]++' file

domain.com
domain.net
anotherdomain.com

Answer

如果您只有一个域名扩展，请尝试此操作。

awk -F '.' '!seen[$(NF-1)"."$NF]++' file

domain.com
domain.net
anotherdomain.com

使用脚本（bash、awk 或类似脚本）修剪文件中其他域的子域

答案1

答案2

答案3

相关内容