合并、排序和删除大量 gzip 文件中的重复项

Question

问题是各个文件是未排序的，即如果您使用类似的东西sort -u file* > sortedFile，排序将必须加载所有文件的内容，然后对它们进行排序。我认为这是低效的，因为您可能没有超过 120 GB 的内存。

我建议您首先对所有文件进行单独排序，然后使用sort -m, 合并它们（此代码未经测试！）：

for f in file*; do
  gzip -dc "$f" | sort > sorted.$f.bak
done
sort -m -u sorted.file*.bak > sortedFile
rm -f sorted.file*.bak

排序手册页的相关部分（例如http://unixhelp.ed.ac.uk/CGI/man-cgi?sort）：

-m, --merge 合并已经排序的文件；不排序

更新：看完之后https://stackoverflow.com/questions/930044/how-could-the-unix-sort-command-sort-a-very-large-file，我认为您的原始命令可能同样快，因为 sort 无论如何都会将其输入分割成可管理的块。您的命令行将如下所示：

 sort <(zcat file1) <(zcat file2) ... <(zcat file15) > sortedFile

这也将允许使用机器的多个核心。

Answer 1