有没有一款软件可以对一批 Microsoft Word 文件进行关键字分析?换句话说,我只想对所有使用的单词进行字数统计。目的是识别关键字作为创建分类法的基础。
答案1
我使用了一个使用该模块的 Python 脚本docx.py
(请参阅这里) 读取 Word 文件并处理相关任务中的单个单词。关键部分位于以下代码中(它仅读取作为第一个命令行参数给出的一个 .docx 文件,但可以轻松扩展以对许多文件中的单词进行计数:
from docx import *
import sys
try:
document = opendocx(sys.argv[1])
except:
print('Could not open '+sys.argv[1])
exit()
## Fetch all the text out of the document
paratextlist = getdocumenttext(document)
count = {}
for line in paratextlist:
for word in line.rstrip().split():
count{word} = count.get(word,0) + 1
答案2
怎么样词统计?