显示多个文件中重复行的位置

Question 1

总结

你可以做这样的事情：

file_expr="*.txt"; sort $file_expr | sed 's/^\s*//; s/\s*$//; /^\s*$/d' | uniq -d | while read dup_line; do grep -Hn "^\s*$dup_line\s*$" $file_expr; done| sort -t: -k3 -k1,2 | awk -F: '{ file=$1; line=$2; $1=$2=""; gsub(/(^[ \t]+)|([ \t]+$)/,"",$0); if (prev != "" && prev != $0) printf ("\n"); printf ("\033[0;33m%s (line %s)\033[0m: %s\n", file, line, $0); prev=$0; }'

结果：

a.txt (line 3): 11
a.txt (line 8): 11
b.txt (line 8): 11

a.txt (line 7): 55
b.txt (line 3): 55

改变变量的内容file_expr来改变受影响的文件

解释

我使用sed命令来修剪全部尾随和领导空格和删除空行，使得uniq -d仅获取真正重复的行......

然后我环形重复的行（每匹配一次打印一行）并grep使用标志将它们放入文件中-n（打印文件和线）和-H（总是显示文件名）。表达式^\s*$dup_line\s*$放入grep使其匹配全线（例如“qwerty11uiop”不匹配）。

正如你所看到的，它可以使用文件通配符...

file_expr="*.txt"; sort $file_expr | sed 's/^\s*//; s/\s*$//; /^\s*$/d' | uniq -d | while read dup_line; do grep -Hn "^\s*$dup_line\s*$" $file_expr; done

结果：

a.txt:3:11  
a.txt:8:11  
b.txt:8:11  
a.txt:7:55  
b.txt:3:55

... 和文字文件名..

file_expr="a.txt b.txt"; sort $file_expr | sed 's/^\s*//; s/\s*$//; /^\s*$/d' | uniq -d | while read dup_line; do grep -Hn "^\s*$dup_line\s*$" $file_expr; done

结果：

a.txt:3:11
a.txt:8:11
b.txt:8:11
a.txt:7:55
b.txt:3:55

小调整

然后我稍微调整了一下，让它看起来更舒服的... 像这样：

file_expr="a.txt b.txt"; sort $file_expr | sed 's/^\s*//; s/\s*$//; /^\s*$/d' | uniq -d | while read dup_line; do grep -Hn "^\s*$dup_line\s*$" $file_expr; done| sort -t: -k3 -k1,2 | awk -F: '{ file=$1; line=$2; $1=$2=""; gsub(/(^[ \t]+)|([ \t]+$)/,"",$0); if (prev != "" && prev != $0) printf ("\n"); printf ("\033[0;33m%s (line %s)\033[0m: %s\n", file, line, $0); prev=$0; }'

结果：

a.txt (line 3): 11
a.txt (line 8): 11
b.txt (line 8): 11

a.txt (line 7): 55
b.txt (line 3): 55

在最后一个视图中，一切都更加“人性化”，重复项首先按结果分组，然后按文件分组（您可以看到结果a.txt都在一起），因此更容易理解。

文件名和行现在为黄色（\033[0;33m），以区别于实际行中的文本，以防出现多行（请原谅这个双关语）重复的情况

Answer

总结