删除一堆 .txt 文件中的所有重复项

Question

一个简单的

sort -u Documents/*.txt > result.txt

应该这样做。sort已经知道如何处理大于内存的文件，因此您不应该遇到使用 awk 看到的内存不足错误。我必须承认我有点惊讶 awk 内存不足，它是编译为 32 位应用程序吗？

一般来说，使用sort可能比使用该awk '!seen[$1]++'方法慢。您可以通过分组处理文件来恢复速度。

Answer 1

一个简单的

sort -u Documents/*.txt > result.txt

应该这样做。sort已经知道如何处理大于内存的文件，因此您不应该遇到使用 awk 看到的内存不足错误。我必须承认我有点惊讶 awk 内存不足，它是编译为 32 位应用程序吗？

一般来说，使用sort可能比使用该awk '!seen[$1]++'方法慢。您可以通过分组处理文件来恢复速度。

相关内容