如何统计文件中每个单词出现的次数?

如何统计文件中每个单词出现的次数?

我需要一个程序来计算文件中单词的数量以及每个单词出现的次数。

(我发现的大多数例子只计算单词总数。)

答案1

免费在线服务字数统计对任何给定文本主体中最常用的单词进行排序。使用它来查看您过度使用的单词,或者只是从文档中查找一些关键字。

答案2

如果使用命令行(或脚本)没问题,那么还有一百万种选择。例如使用 Perl(对于 Windows,您需要安装活动Perl或者赛格威使用 Perl):

perl -0777 -lape's/\s+/\n/g' FILENAME | sort | uniq -c | sort -nr

解释

  • perl -0777导致 Perl 对整个文件进行操作,就好像它是一行一样(“slurp 模式”)。
  • 's/\s+/\n/g'将所有空格改为换行符,因此:Perl 的输出是每行一个单词。
  • sort命令按字母顺序对单词进行排序。
  • uniq命令可消除重复的单词;通过该-c选项,它还可打印出现的次数。
  • 第二条sort命令带有-nr选项,按降序对结果文件进行数字排序。

答案3

这非常简单。只需使用以下命令:

sort file.txt | uniq -c | sort -r

答案4

Linux(Ubuntu)命令行:

tr -cs "[:alpha:]" "[\n*]" < file1 | sort | uniq -c | sort -nr > file2

相关内容