如果 sort 创建了临时文件，是否意味着 RAM 内存不足？

Question

一般来说，“一直使用内存直到用完”是一个糟糕的策略，你可能会给其他用户带来麻烦，你最终可能会使用看起来像内存但性能特性更差的交换，或者（因为 Linux 默认过度使用内存）你可能最终被 OOM 杀手杀死。

当对大量数据进行排序时，一种常见的策略是“批量合并”，将数据拆分成批，在内存中排序并写入临时文件。然后有一个合并过程，读取这些批并将它们合并在一起。如果数据集非常大，可能会有多层合并。

看起来排序决定使用的缓冲区大小取决于许多因素，包括 ulimit 值、可用内存、-S 参数（如果指定）以及输入文件的大小。

似乎在输入大小未知（例如来自管道的输入）、没有特定的内存压力并且没有指定特定的排序大小的情况下，排序使用由“INPUT_FILE_SIZE_GUESS”确定的缓冲区大小，根据注释，该缓冲区大约有 17 兆字节（请注意，所述缓冲区不仅存储原始行文本，因此可能不适合 17 兆字节的输入）。

Answer 1

一般来说，“一直使用内存直到用完”是一个糟糕的策略，你可能会给其他用户带来麻烦，你最终可能会使用看起来像内存但性能特性更差的交换，或者（因为 Linux 默认过度使用内存）你可能最终被 OOM 杀手杀死。

当对大量数据进行排序时，一种常见的策略是“批量合并”，将数据拆分成批，在内存中排序并写入临时文件。然后有一个合并过程，读取这些批并将它们合并在一起。如果数据集非常大，可能会有多层合并。

看起来排序决定使用的缓冲区大小取决于许多因素，包括 ulimit 值、可用内存、-S 参数（如果指定）以及输入文件的大小。

似乎在输入大小未知（例如来自管道的输入）、没有特定的内存压力并且没有指定特定的排序大小的情况下，排序使用由“INPUT_FILE_SIZE_GUESS”确定的缓冲区大小，根据注释，该缓冲区大约有 17 兆字节（请注意，所述缓冲区不仅存储原始行文本，因此可能不适合 17 兆字节的输入）。

相关内容