如何在文本文件中查找重复行，而某些行可能被注释掉或开头有不同的标记？

Question 1

这很有趣。

首先，我们需要消除尾随评论，如：

86.242.200.81 banana.domain.net          # comment

我们可以使用以下命令来做到这一点（假设只有空格，没有制表符）：

sed 's/  *#.*//'

如果您的主机文件中有选项卡，可以先运行以下命令：

tr '\t' ' '

然后我们需要消除“注释掉这一行”注释，我将其定义为 IP 地址前面的单个哈希字符。我们可以像这样删除它们：

sed '/^#[0-9]/ s/^#//'

将以上内容放在一起可以得到：

###  Comments

# Comments
86.242.200.81 banana.domain.net
86.242.200.3 orange.domain.net
31.28.225.81 monkey.anotherdomain.net

51.18.33.4 puffin.domainz.com
31.28.220.80 monkey.anotherdomain.net
86.242.201.3 orange.domain.net

如果我们对第二列 ( sort -k2) 进行排序，我们会得到一个按名称排序的列表：

86.242.200.81 banana.domain.net
# Comments
###  Comments
31.28.220.80 monkey.anotherdomain.net
31.28.225.81 monkey.anotherdomain.net
86.242.200.3 orange.domain.net
86.242.201.3 orange.domain.net
51.18.33.4 puffin.domainz.com

现在，如果我们告诉忽略第一个字段，我们可以申请uniq查找重复项：uniq

uniq -c -f 1

这给了我们：

  2 
  1 86.242.200.81 banana.domain.net
  1 # Comments
  1 ###  Comments
  2 31.28.220.80 monkey.anotherdomain.net
  2 86.242.200.3 orange.domain.net
  1 51.18.33.4 puffin.domainz.com

因此，如果我们查找计数为 2 或更高的行，我们就找到了重复项。把这些放在一起我们得到：

#!/bin/sh

tr '\t' ' ' |
sed '
    /^#[0-9]/ s/^#//
    s/  *#.*//
    /^ *$/ d
' |
sort -k2 |
uniq -f 1 -c |
awk '$1 > 1 {print}'

上述脚本中的最后一条语句查找(field1)awk中的计数为的行。uniq> 1

运行上面的脚本看起来像这。

Answer

这很有趣。