如何从目录及其所有后续子目录中的 1 TB 数据中删除重复行?

如何从目录及其所有后续子目录中的 1 TB 数据中删除重复行?

我需要从目录及其各个子目录中包含的约 TB 左右的文本文件中删除重复行。

我尝试过使用 sort -u *.txt > newfile.txt 并从以下内容创建一个简单的 python 脚本

从文件夹中的多个文件中删除重复行:仅检查某个范围内的文件

两者似乎都不起作用,排序 -u 在尝试处理近 100GB 的文本文件文件夹时,我的笔记本电脑内存不足 (32GB)。

相关内容