给定 3 个文本文件，如何从每个文件中找到唯一的行

Question 1

假设：

文本文件每行有一个 ID
每行仅包含一个 ID，没有其他文本
文件中的 ID 不重复
可以重新排列输出文件（排序）
执行效率并不重要
ID 为字母数字

$ cat A B B C C | sort | uniq -u >A.uniq
$ cat B A A C C | sort | uniq -u >B.uniq
$ cat C A A B B | sort | uniq -u >C.uniq
$ mv A.uniq A
$ mv B.uniq B
$ mv C.uniq C

“cat”命令将列出的文件连接在一起。第一个文件是我想要删除重复项的文件。接下来的文件是我想要删除的潜在重复项。我为每个文件添加了两个副本，以确保它们是重复的并且将被删除。

接下来，我按字母顺序对这些文件进行“排序”。这样，任何重复的 ID 都会出现在排序后的输出中的相邻行上。

带有“-u”选项的“uniq”命令仅输出唯一的行。如果输入中的相邻行中出现两个或多个相同 ID，则不会输出任何内容。

'>' 将输出写入名为“A.uniq”的新文件

如果您想做相反的事情并生成 3 个文件中重复的所有 ID 的列表，您可以执行以下操作：

$ cat A B C | sort | uniq -d >duplicates

带有‘-d’标志的‘uniq’命令仅当在输入中重复两次或更多次时才输出一行。

Answer

假设：

文本文件每行有一个 ID
每行仅包含一个 ID，没有其他文本
文件中的 ID 不重复
可以重新排列输出文件（排序）
执行效率并不重要
ID 为字母数字

$ cat A B B C C | sort | uniq -u >A.uniq
$ cat B A A C C | sort | uniq -u >B.uniq
$ cat C A A B B | sort | uniq -u >C.uniq
$ mv A.uniq A
$ mv B.uniq B
$ mv C.uniq C