如何将 10GB 以上的大型 txt 文件合并为 1 个 txt 文件,并以最快的方式从该 txt 文件中删除重复的行?

如何将 10GB 以上的大型 txt 文件合并为 1 个 txt 文件,并以最快的方式从该 txt 文件中删除重复的行?

简单来说我的问题是不同的因为我需要将文件合并为一个然后从该文件中删除重复的行,该文件将超过 50GB txt 我有来自 10GB+ 文件的大型 .txt

我想将它们合并为 1 个 .txt 文件

然后从 1 个大型 .txt 文件中删除所有重复的行,这个文件大约有 50GB 或 100GB

那么什么可以处理这种大文件并顺利删除其中的重复项?

我需要最快的方法,因为我试过 notepad++ 和 emeditor,它们在合并或删除重复项时工作量很大,而且需要很长时间

我有 12GB 内存

答案1

如果你使用的是 Linux,你可以这样做:

cat aa.txt bb.txt | sort -u > newfile.txt

这里 aa.txt 是第一个文本文件,bb.txt 是第二个文本文件。

sort -u按字母顺序对文件进行排序-u(另请参阅此处https://stackoverflow.com/a/9377125/7311363) 您正在消除重复项。然后 > newfile.txt您将其写入 newfile.txt。

相关内容