递归地从大量文件中删除重复的行

2024-8-30 • tag-icon

我有一个由几千个文件夹组成的目录树，其中包含大量的行 - 大约是我系统内存的 2 到 3 倍。

我可以运行uniq或在循环sort -u内for，但我希望能够保证我所做的一切都不会破坏这个庞大且非常敏感的数据集，并且如果这意味着能够保证这些事情，我愿意等待更长的时间让该过程完成。

出于这些原因，我需要一个解决方案：

最安全的方法是什么？

相关内容