从文本中删除最常见的单词

Question

假设您有名为“news.articles1”、“news.articles2”等的文件，并且您的常用单词位于名为“stop.words”的文件中

cat news.articles* | tr -s '[:blank:]' '[\n*]' |
tr '[:upper:]' '[:lower:]' | fgrep -v -f stop.words

该管道的输出不应包含任何常用单词。您可能需要通过管道中的附加步骤删除所有标点符号，例如：

tr -d '[:punct:]'

“stop.words”的良好英语版本通常位于/usr/share/groff/<version>/eign.

Answer 1

假设您有名为“news.articles1”、“news.articles2”等的文件，并且您的常用单词位于名为“stop.words”的文件中

cat news.articles* | tr -s '[:blank:]' '[\n*]' |
tr '[:upper:]' '[:lower:]' | fgrep -v -f stop.words

该管道的输出不应包含任何常用单词。您可能需要通过管道中的附加步骤删除所有标点符号，例如：

tr -d '[:punct:]'

“stop.words”的良好英语版本通常位于/usr/share/groff/<version>/eign.

相关内容