Linux fgrep 如何从大的“MIXED_WORDS”文件中提取“only_words_in_my_language”？

Question

正如错误消息告诉您的那样，您没有足够的内存。系统正在构建一个正则表达式来匹配 900KB 文件中的所有单词。 mix_word 文件的大小并不重要。该错误消息可能会产生误导，因为它的真正含义可能是regular expression too complicated.

您应该能够将 lang.dict.txt 分成更小的块。您可以使用 unix 命令split来执行此操作。

Answer 1

正如错误消息告诉您的那样，您没有足够的内存。系统正在构建一个正则表达式来匹配 900KB 文件中的所有单词。 mix_word 文件的大小并不重要。该错误消息可能会产生误导，因为它的真正含义可能是regular expression too complicated.

您应该能够将 lang.dict.txt 分成更小的块。您可以使用 unix 命令split来执行此操作。

我的lang.dict.txt（900kb）和mixed_file（64 mb），grep说：内存耗尽