查找两个文件中的线的交集

Question 1

简单的comm+sort解决方案：

comm -12 <(sort file1) <(sort file2)

-12- 抑制列1和（分别为和唯一2的行），从而仅输出公共行（出现在两个文件中）FILE1FILE2

Answer

简单的comm+sort解决方案：

comm -12 <(sort file1) <(sort file2)

-12- 抑制列1和（分别为和唯一2的行），从而仅输出公共行（出现在两个文件中）FILE1FILE2

Question 2

在中awk，这将第一个文件完全加载到内存中：

$ awk 'NR==FNR { lines[$0]=1; next } $0 in lines' file1 file2 
67
102

或者，如果您想跟踪给定行出现的次数：

$ awk 'NR==FNR { lines[$0] += 1; next } lines[$0] {print; lines[$0] -= 1}' file1 file2

join可以做到这一点，尽管它确实需要对输入文件进行排序，因此您需要首先执行此操作，并且这样做会丢失原始顺序：

$ join <(sort file1) <(sort file2)
102
67

Answer

在中awk，这将第一个文件完全加载到内存中：

$ awk 'NR==FNR { lines[$0]=1; next } $0 in lines' file1 file2 
67
102

或者，如果您想跟踪给定行出现的次数：

$ awk 'NR==FNR { lines[$0] += 1; next } lines[$0] {print; lines[$0] -= 1}' file1 file2

join可以做到这一点，尽管它确实需要对输入文件进行排序，因此您需要首先执行此操作，并且这样做会丢失原始顺序：

$ join <(sort file1) <(sort file2)
102
67

Question 3

awk

awk 'NR==FNR { p[NR]=$0; next; }
   { for(val in p) if($0==p[val]) { delete p[val]; print; } }' file1 file2

这是一个很好的解决方案，因为（对于大文件）它应该是最快的，因为它省略了多次打印相同条目并在匹配后再次检查条目。

grep

grep -Fxf file1 file2

如果同一条目在中出现多次，则会多次输出该条目file2。

种类

为了好玩（应该比慢得多grep）：

sort -u file1 >t1
sort -u file2 >t2
sort t1 t2 | uniq -d

Answer