我被赋予一项任务,将所有评论翻译成一个大型 MS Word 文件。为了起草法案,我需要计算所有原始评论“气泡”中的所有字符(包括空格)。那么如何做到这一点?手动计算会很困难。
是否可以以某种方式将所有评论保存在单独的文本文件中,以便对其进行计数?
PS 我刚刚尝试将 DOC 文档另存为 MHT 文件。所有注释都整齐地显示在页面底部。我可以选择所有注释并右键单击“复制”。但是当我打开新的 MS Word 文档并单击“粘贴”时,什么也没发生。
答案1
docx 文件是一个 zip 存档,其中包含许多 xml 文件。其中一个文件是“comments.xml”,其中包含所有评论。在我的 Linux 系统上,我执行以下操作来提取所有评论的文本。我创建了一个简单的 test.docx 文件,其中包含一个段落,我在其中附加了一条评论。
unzip test.docx
xmllint --xpath "//*[local-name()='t']/text()" word/comments.xml
返回评论的所有文本。此后,它只是一个简单的字符/字数统计。