直接 GNU 排序会使用大量内存和许多核心

Question

没有人回答，所以这就是我所做的：

sort -T /mnt/tmp --parallel=14 -S 50G myBigFile.txt

我没有使用，--batch-size因为我不确定什么是一个好的价值，而且大概sort是很聪明的。

/mnt安装在一个大的临时磁盘上（该机器是云中的虚拟机）。如果/tmp位于有足够空间的磁盘上，则可以省略-T.如果您有一个非常快且有足够空间的磁盘，请使用它。

如果我没记错的话，它再次需要与要排序的文件的大小相同的空间 - 基本上它将文件分成两个或多个块，每个块都可以在内存中排序，将它们存储在临时磁盘中，然后执行合并排序以产生最终输出。

Answer 1

没有人回答，所以这就是我所做的：

sort -T /mnt/tmp --parallel=14 -S 50G myBigFile.txt

我没有使用，--batch-size因为我不确定什么是一个好的价值，而且大概sort是很聪明的。

/mnt安装在一个大的临时磁盘上（该机器是云中的虚拟机）。如果/tmp位于有足够空间的磁盘上，则可以省略-T.如果您有一个非常快且有足够空间的磁盘，请使用它。

如果我没记错的话，它再次需要与要排序的文件的大小相同的空间 - 基本上它将文件分成两个或多个块，每个块都可以在内存中排序，将它们存储在临时磁盘中，然后执行合并排序以产生最终输出。

相关内容