我有 2 个文本文件。让我们将它们命名为 file1.txt 和 file2.txt
file1.txt如下
chr10 181144 225933
chr10 181243 225933
chr10 181500 225933
chr10 226069 255828
chr10 255989 267134
chr10 255989 282777
chr10 267297 282777
chr10 282856 283524
chr10 283618 285377
chr10 285466 285995
file2.txt如下
chr10 181144 225933
chr10 181243 225933
chr10 181500 225933
chr10 255989 282777
chr10 267297 282777
chr10 282856 283524
chr10 375542 387138
chr10 386930 387138
chr10 387270 390748
chr10 390859 390938
chr10 391051 394580
chr10 394703 395270
我想在单个文件中输出的是
- file1 和 file2 之间的所有公共行
- file1 中但两者不共同的所有行
- file2 中但两者不共同的所有行。
我编写了一个 Perl 脚本来执行此操作,但我很确定必须有一个命令行或更简单的方法来执行此操作。
答案1
两个文件共有的行:
comm -12 file1.txt file2.txt > results.txt
添加 file1.txt 特有的行:
comm -23 file1.txt file2.txt >> results.txt
添加 file2.txt 特有的行:
comm -13 file1.txt file2.txt >> results.txt
如果文件尚未排序,则必须事先进行排序,例如,如果您的 shell 支持进程替换
comm -12 <(sort file1.txt) <(sort file2.txt)
ETC。
答案2
有一个通讯命令来完成这项工作。但是您可以通过结合其他标准工具(例如,,,,)grep
来sort
做到这一点。这是一个解决方案 use ,以及等效的 using 。uniq
join
grep
comm
两个文件共有的行:
grep -xF -f file1 file2
comm -12 <(sort -u file1) <(sort -u file2)
仅在以下行file1
:
grep -vxF -f file2 file1
comm -23 <(sort -u file1) <(sort -u file2)
仅在以下行file2
:
grep -vxF -f file1 file2
comm -13 <(sort -u file1) <(sort -u file2)