递归地从大量文件中删除重复的行

递归地从大量文件中删除重复的行

我有一个由几千个文件夹组成的目录树,其中包含大量的行 - 大约是我系统内存的 2 到 3 倍。

我可以运行uniq或在循环sort -ufor,但我希望能够保证我所做的一切都不会破坏这个庞大且非常敏感的数据集,并且如果这意味着能够保证这些事情,我愿意等待更长的时间让该过程完成。

出于这些原因,我需要一个解决方案:

  1. 删除每个文件内的重复行,不是整个系列
  2. 就地执行此操作,保留原始文件中的行以及文件和文件夹结构不变

最安全的方法是什么?

相关内容