grep 由于内存使用而退出 - 我可以让 grep 不使用那么多内存吗？

Question

sort 命令对处理大型数据集有一些特定的支持，因为这是一个相对常见的用例。巨大的 grep 模式是一种极其罕见的用例，因此您不能指望开发人员在其中投入大量精力。

如果行的顺序并不重要，您可以对两个文件进行排序，然后可以对它们进行比较，而无需一次在内存中存储多于几行，无论文件有多长。由于排序可以处理内存不足的文件，因此这是高效的。

sort originallist >originallist.sorted
sort cleaned1 | comm -23 originallist.sorted - >cleaned2.sorted

如果 OriginalList 的原始顺序很重要，您可以向其中添加行号：

nl -w 22 originallist >originallist.numbered
# then generate cleaned1 from the numbered list

由于originallist.numbered已排序，您可以comm在其上运行以检测公共行。

如果顺序很重要并且对行进行编号为时已晚，那么您可以尝试分成块并为每个块cleaned1进行一次传递。originallist最近的 GNU 分裂：

cp originalfile cleaned2.in
split -l 1000000 --filter='grep -Fxv -f - cleaned2.in >cleaned2.out; mv cleaned2.out cleaned2.in' cleaned1
mv cleaned2.in cleaned2

（请注意，它F不执行“全行匹配”，而是执行子字符串匹配。对于全行字符串匹配，您-x还需要。）

Answer 1