Microsoft Office 关键字分析

Microsoft Office 关键字分析

有没有一款软件可以对一批 Microsoft Word 文件进行关键字分析?换句话说,我只想对所有使用的单词进行字数统计。目的是识别关键字作为创建分类法的基础。

答案1

我使用了一个使用该模块的 Python 脚本docx.py(请参阅这里) 读取 Word 文件并处理相关任务中的单个单词。关键部分位于以下代码中(它仅读取作为第一个命令行参数给出的一个 .docx 文件,但可以轻松扩展以对许多文件中的单词进行计数:

from docx import *
import sys

try:
    document = opendocx(sys.argv[1])
except:
    print('Could not open '+sys.argv[1])
    exit()

## Fetch all the text out of the document       
paratextlist = getdocumenttext(document)    

count = {}
for line in paratextlist:
    for word in line.rstrip().split():
        count{word} = count.get(word,0) + 1

答案2

怎么样词统计

相关内容