词频gawk内存泄漏

Question

所以，有一些事情有帮助，但让这个工作起作用的主要事情是使用sort | uniq -c而不是 gawk，根据格雷戈里·尼斯贝特。

我也最终使用@dave_thompson_085 的评论关于tr -sc '[:alpha:]' '\n'。该标志-s结合了重复，这意味着我不必删除空行，并-c反转要查找的字符集。的一个副作用-c是你只能使用一个替换字符，而不是一组。也感谢戴夫关于 grep 和精确行匹配的问题( -x)。如果我有投票赞成该评论的声誉，我会的。

最后，我不得不使用一些额外的代码来删除 XML 实体 ( ") 并删除 html（多余的<ref />）。在中getArticleText，新的 sed 命令是| sed -e 's/"/"/g' -e 's/</</g' -e 's/>/>/g' -e 's/&/&/g' -e 's/<.*>//g'。每个表达式（-e链接命令）处理不同的 HTML 实体。我尝试了一些更完整的选项（比如使用 perl堆栈溢出），但由于机器特定的问题，它们在我的情况下不起作用。最终脚本可以在我的字数库。

该脚本在我的机器上花了 3 小时 20 分钟完成，但它也是多年前的 6 核 AMD 硬盘。你的里程可能会有所不同，但这对我来说已经足够了。

我将避免接受这个答案，这样如果@Gregory Nisbet 或@dave_thompson_085 想发布他们自己的答案，他们就可以。

Answer 1

所以，有一些事情有帮助，但让这个工作起作用的主要事情是使用sort | uniq -c而不是 gawk，根据格雷戈里·尼斯贝特。

我也最终使用@dave_thompson_085 的评论关于tr -sc '[:alpha:]' '\n'。该标志-s结合了重复，这意味着我不必删除空行，并-c反转要查找的字符集。的一个副作用-c是你只能使用一个替换字符，而不是一组。也感谢戴夫关于 grep 和精确行匹配的问题( -x)。如果我有投票赞成该评论的声誉，我会的。

最后，我不得不使用一些额外的代码来删除 XML 实体 ( ") 并删除 html（多余的<ref />）。在中getArticleText，新的 sed 命令是| sed -e 's/"/"/g' -e 's/</</g' -e 's/>/>/g' -e 's/&/&/g' -e 's/<.*>//g'。每个表达式（-e链接命令）处理不同的 HTML 实体。我尝试了一些更完整的选项（比如使用 perl堆栈溢出），但由于机器特定的问题，它们在我的情况下不起作用。最终脚本可以在我的字数库。

该脚本在我的机器上花了 3 小时 20 分钟完成，但它也是多年前的 6 核 AMD 硬盘。你的里程可能会有所不同，但这对我来说已经足够了。

我将避免接受这个答案，这样如果@Gregory Nisbet 或@dave_thompson_085 想发布他们自己的答案，他们就可以。

词频gawk内存泄漏

答案1

相关内容