因此我使用以下命令:
sort file1.txt | uniq > cleared.txt
但是,cleared.txt 文件的大小完全相同,并且所有重复项仍然存在。您能否解释一下我尝试的方法有什么问题,或者也可以提供替代方案?
谢谢!
更新:我尝试使用以下 awk 命令,但重复仍然存在。
awk '!seen[$0]++'
也许有必要提一下,我尝试清理的文件是从可能来自不同国家/布局的不同文件中收集的。请注意,我想保留重复单词的一份副本。
答案1
最有可能的是,尾随空格导致指定不唯一。尝试使用 xargs 删除它们,例如:
sort file1 | xargs -n 1 |uniq