从文本中删除最常见的单词

从文本中删除最常见的单词

我有一个简单的问题,但不幸的是我不知道从哪里开始(我才刚刚开始)。所以,我想做的最终是增加我的词汇量。我想到从新闻文章中删除最常用的单词。我找到了 5,000 个最常用单词的列表并保存了它。删除最常用的单词后,我可以在 TextSTAT 中创建一个语料库并进行词频统计,然后选择我想通过这种方式学习的单词。但是,如何将最常用单词列表中的单词从我要保存的文章中删除呢?

答案1

假设您有名为“news.articles1”、“news.articles2”等的文件,并且您的常用单词位于名为“stop.words”的文件中

cat news.articles* | tr -s '[:blank:]' '[\n*]' |
tr '[:upper:]' '[:lower:]' | fgrep -v -f stop.words 

该管道的输出不应包含任何常用单词。您可能需要通过管道中的附加步骤删除所有标点符号,例如:

tr -d '[:punct:]'

“stop.words”的良好英语版本通常位于/usr/share/groff/<version>/eign.

相关内容