uniq 如何工作？

Question

这不是随机行为。从man uniq：

笔记：除非重复行相邻，否则“uniq”不会检测重复行。您可能希望先对输入进行排序，或者使用不带“uniq”的“sort -u”。此外，比较遵循“LC_COLLATE”指定的规则。

本质上，uniq默认情况下仅适用于已排序输入。换句话说，这是设计使然。

但你的主要问题是：

一行出现的行数如何影响文件中出现的次数

要回答这个问题，你真的需要看看独特的源代码：

while (!feof (stdin))
  {
    char *thisfield;
    size_t thislen;
    if (readlinebuffer_delim (thisline, stdin, delimiter) == 0)
      break;
    thisfield = find_field (thisline);
    thislen = thisline->length - 1 - (thisfield - thisline->buffer);
    if (prevline->length == 0
        || different (thisfield, prevfield, thislen, prevlen))
      {
        fwrite (thisline->buffer, sizeof (char),
                thisline->length, stdout);

        SWAP_LINES (prevline, thisline);
        prevfield = thisfield;
        prevlen = thislen;
      }
  }

这里的关键是读取文件逐行并且只能在函数中对当前行和前一行进行比较，different()如果行不相同，则返回 True，如果相同，则返回 False。这样做的原因实际上是，如果你要比较全部行，如果行数很多，你可能需要大量内存。这不切实际，而且会大大降低uniq速度

Answer 1