谁杀了我的同类？或如何有效地计算 csv 列中的不同值

Question 1

TL;DR：内存不足杀手或磁盘空间不足用于临时文件杀死sort。建议：使用不同的工具。

sort.c我现在已经浏览了 GNU coreutils' 。您的-S 1G意思只是意味着该sort进程尝试分配 1GB 的内存块，如果不可能的话，将回退到越来越小的大小。

耗尽该缓冲区后，它将创建一个临时文件来存储已排序的行²，并对内存中的下一个输入块进行排序。

消耗完所有输入后，sort会将两个临时文件合并/排序为一个临时文件（mergesort-style），并连续合并所有临时文件，直到合并产生总排序输出，然后将其输出到stdout.

这很聪明，因为这意味着您可以对大于可用内存的输入进行排序。

或者，在这些临时文件本身不保存在 RAM 中的系统上（/tmp/通常是 a tmpfs，仅 RAM 文件系统），这很聪明。因此，写入这些临时文件会占用您想要保存的 RAM，并且您的 RAM 即将耗尽：您的文件有 1.6 亿行，快速谷歌一下就会发现它是 11GB 的未压缩数据。

sort您可以通过更改它使用的临时目录来“帮助”解决这个问题。您已经这样做了，-T.将临时文件放置在当前目录中。可能你那里的空间不够了？或者当前目录是否在tmpfs或类似？

您有一个包含中等数据量的 CSV 文件（1.6 亿行不是那现代 PC 的数据量很大）。您不是将其放入旨在处理大量数据的系统中，而是尝试使用 20 世纪 90 年代的工具（是的，我刚刚读过sortgit 历史）对其进行操作，当时 16 MB RAM 似乎相当慷慨。

CSV 只是数据格式错误用于处理任何大量数据，您的示例完美地说明了这一点。低效的工具以低效的方式处理低效的数据结构（带有行的文本文件），以低效的方式实现目标：

您只想知道每个值在第二列中出现的频率。之前的排序只是因为你的工具（uniq -c）很糟糕，并且需要之前对行进行排序（实际上没有充分的理由。它只是没有实现它可以保存值及其频率的映射，并随着它们的出现而增加）出现）。

因此，也许现在是告诉您的好时机，不，不要使用基于 CSV 的数据流。一个简单的

sqlite3 place.sqlite

并在该 shell 中（假设您的 CSV 有一个标题行，SQLite 可以使用该标题行来确定列）（当然，替换$second_column_name为该列的名称）

.import 022_place_canvas_history.csv canvas_history --csv
SELECT $second_column_name, count($second_column_name)
  FROM canvas_history
  GROUP BY $second_column_name;

可能会一样快，而且额外的好处是，您会得到一个实际的数据库文件place.sqlite。您可以更灵活地进行操作 - 例如，创建一个表，在其中提取坐标，并将时间转换为数字时间戳，然后通过您的分析变得更快、更灵活。

1 全局变量，以及何时使用的不一致。他们受伤了。对于 C 语言作者来说，这是一个不同的时代。它绝对不是糟糕的 C，只是……不是您所习惯的更现代的代码库。感谢 Jim Meyering 和 Paul Eggert 编写和维护此代码库！

² 你可以尝试执行以下操作：对一个不太大的文件进行排序，比如说ls.c有 5577 行，并记录打开的文件数：

strace -o /tmp/no-size.strace -e openat sort ls.c
strace -o /tmp/s1kB-size.strace -e openat sort -S 1 ls.c
strace -o /tmp/s100kB-size.strace -e openat sort -S 100 ls.c
wc -l /tmp/*-size.strace

Answer

TL;DR：内存不足杀手或磁盘空间不足用于临时文件杀死sort。建议：使用不同的工具。

sort.c我现在已经浏览了 GNU coreutils' 。您的-S 1G意思只是意味着该sort进程尝试分配 1GB 的内存块，如果不可能的话，将回退到越来越小的大小。

耗尽该缓冲区后，它将创建一个临时文件来存储已排序的行²，并对内存中的下一个输入块进行排序。

消耗完所有输入后，sort会将两个临时文件合并/排序为一个临时文件（mergesort-style），并连续合并所有临时文件，直到合并产生总排序输出，然后将其输出到stdout.

这很聪明，因为这意味着您可以对大于可用内存的输入进行排序。

或者，在这些临时文件本身不保存在 RAM 中的系统上（/tmp/通常是 a tmpfs，仅 RAM 文件系统），这很聪明。因此，写入这些临时文件会占用您想要保存的 RAM，并且您的 RAM 即将耗尽：您的文件有 1.6 亿行，快速谷歌一下就会发现它是 11GB 的未压缩数据。

sort您可以通过更改它使用的临时目录来“帮助”解决这个问题。您已经这样做了，-T.将临时文件放置在当前目录中。可能你那里的空间不够了？或者当前目录是否在tmpfs或类似？

您有一个包含中等数据量的 CSV 文件（1.6 亿行不是那现代 PC 的数据量很大）。您不是将其放入旨在处理大量数据的系统中，而是尝试使用 20 世纪 90 年代的工具（是的，我刚刚读过sortgit 历史）对其进行操作，当时 16 MB RAM 似乎相当慷慨。

CSV 只是数据格式错误用于处理任何大量数据，您的示例完美地说明了这一点。低效的工具以低效的方式处理低效的数据结构（带有行的文本文件），以低效的方式实现目标：

您只想知道每个值在第二列中出现的频率。之前的排序只是因为你的工具（uniq -c）很糟糕，并且需要之前对行进行排序（实际上没有充分的理由。它只是没有实现它可以保存值及其频率的映射，并随着它们的出现而增加）出现）。

因此，也许现在是告诉您的好时机，不，不要使用基于 CSV 的数据流。一个简单的

sqlite3 place.sqlite

并在该 shell 中（假设您的 CSV 有一个标题行，SQLite 可以使用该标题行来确定列）（当然，替换$second_column_name为该列的名称）

.import 022_place_canvas_history.csv canvas_history --csv
SELECT $second_column_name, count($second_column_name)
  FROM canvas_history
  GROUP BY $second_column_name;

可能会一样快，而且额外的好处是，您会得到一个实际的数据库文件place.sqlite。您可以更灵活地进行操作 - 例如，创建一个表，在其中提取坐标，并将时间转换为数字时间戳，然后通过您的分析变得更快、更灵活。

1 全局变量，以及何时使用的不一致。他们受伤了。对于 C 语言作者来说，这是一个不同的时代。它绝对不是糟糕的 C，只是……不是您所习惯的更现代的代码库。感谢 Jim Meyering 和 Paul Eggert 编写和维护此代码库！

² 你可以尝试执行以下操作：对一个不太大的文件进行排序，比如说ls.c有 5577 行，并记录打开的文件数：

strace -o /tmp/no-size.strace -e openat sort ls.c
strace -o /tmp/s1kB-size.strace -e openat sort -S 1 ls.c
strace -o /tmp/s100kB-size.strace -e openat sort -S 100 ls.c
wc -l /tmp/*-size.strace

Question 2

这来自@MarcusMüller的回答关于“谁杀了我的同类？”已经很清楚了。并且你已经确认了这个问题。

然而，第二部分还没有得到太多讨论：或如何有效地计算 csv 列中的不同值。除了尝试找到更好/更快的排序方法之外。

那是因为你的管道（全部）都是基于使用uniq.并且uniq需要排序的数据。

还有其他解决办法吗？

是的。以第 2 列数据作为键构建一个数组，并在每次找到此类值时加 1。这是 awk 处理数据的常用方式：

$ awk -F, '{count[$2]++}END{for (i in count) {print i,count[i]}}'

这不需要像排序那样将整个文件保留在内存中。但只有键列表（如'kgZoJz//JpfXgowLxOhcQlFYOCm8m6upa6Rpltcc63K6Cz0vEWJF/RYmlsaXsIQEbXrwz+Il3BkD8XZVx7YMLQ==\n'您显示的键和用于计数的浮点数）。

这将按文件出现的顺序处理文件的每一行一次，无需排序即可计算唯一用户数。但是，是的，需要进行最终排序来对计数进行排序。

因此，处理文件的时间将与n排序时间成正比n*log(n)，并且内存使用将与用户数“m”（第二个字段 uniq 键）成正比。

如果每个用户的平均计数为 350（假设最大为 ~795，最小为 1，并且计数在两个计数之间呈线性变化），则使用的内存大小应与 88（键的大小）成正比。）乘以 160353104/350（不同键的数量），或者小于 40 兆字节加上一些开销。

Answer