简单来说我的问题是不同的因为我需要将文件合并为一个然后从该文件中删除重复的行,该文件将超过 50GB txt 我有来自 10GB+ 文件的大型 .txt
我想将它们合并为 1 个 .txt 文件
然后从 1 个大型 .txt 文件中删除所有重复的行,这个文件大约有 50GB 或 100GB
那么什么可以处理这种大文件并顺利删除其中的重复项?
我需要最快的方法,因为我试过 notepad++ 和 emeditor,它们在合并或删除重复项时工作量很大,而且需要很长时间
我有 12GB 内存
答案1
如果你使用的是 Linux,你可以这样做:
cat aa.txt bb.txt | sort -u > newfile.txt
这里 aa.txt 是第一个文本文件,bb.txt 是第二个文本文件。
sort -u
按字母顺序对文件进行排序-u
(另请参阅此处https://stackoverflow.com/a/9377125/7311363) 您正在消除重复项。然后 > newfile.txt
您将其写入 newfile.txt。