在一个输出文件中输出 2 个文件中的公共行和两个文件中的不常见行

在一个输出文件中输出 2 个文件中的公共行和两个文件中的不常见行

我有 2 个文本文件。让我们将它们命名为 file1.txt 和 file2.txt

file1.txt如下

chr10   181144  225933
chr10   181243  225933
chr10   181500  225933
chr10   226069  255828
chr10   255989  267134
chr10   255989  282777
chr10   267297  282777
chr10   282856  283524
chr10   283618  285377
chr10   285466  285995

file2.txt如下

chr10   181144  225933
chr10   181243  225933
chr10   181500  225933
chr10   255989  282777
chr10   267297  282777
chr10   282856  283524
chr10   375542  387138
chr10   386930  387138
chr10   387270  390748
chr10   390859  390938
chr10   391051  394580
chr10   394703  395270

我想在单个文件中输出的是

  1. file1 和 file2 之间的所有公共行
  2. file1 中但两者不共同的所有行
  3. file2 中但两者不共同的所有行。

我编写了一个 Perl 脚本来执行此操作,但我很确定必须有一个命令行或更简单的方法来执行此操作。

答案1

两个文件共有的行:

comm -12 file1.txt file2.txt > results.txt

添加 file1.txt 特有的行:

comm -23 file1.txt file2.txt >> results.txt

添加 file2.txt 特有的行:

comm -13 file1.txt file2.txt >> results.txt

如果文件尚未排序,则必须事先进行排序,例如,如果您的 shell 支持进程替换

comm -12 <(sort file1.txt) <(sort file2.txt)

ETC。

答案2

有一个通讯命令来完成这项工作。但是您可以通过结合其他标准工具(例如,,,,)grepsort做到这一点。这是一个解决方案 use ,以及等效的 using 。uniqjoingrepcomm

两个文件共有的行:

grep -xF -f file1 file2

comm -12 <(sort -u file1) <(sort -u file2)

仅在以下行file1

grep -vxF -f file2 file1

comm -23 <(sort -u file1) <(sort -u file2)

仅在以下行file2

grep -vxF -f file1 file2

comm -13 <(sort -u file1) <(sort -u file2)

相关内容