逐页阅读 MS Word (doc) 文件

逐页阅读 MS Word (doc) 文件

有没有办法让 wvWare(或者可能是其他命令行工具或 Python 库)逐页读取文档文件?我似乎在 wvWare 手册中找不到任何内容,在 Abiword、Antiword 或 catdoc 中也找不到。

答案1

一种非常丑陋的方法是在原始文档中查找 ^L 并找出它们在文本中出现的位置(非 docx Word 文档大多是纯文本:我有时使用命令strings来读取内容)。

^L 是 control-L,字符代码为 12,有时也称为“换页符”。如果您在 emacs(或任何显示控制代码的编辑器)中查看原始 Word 文档,您会在每一页的末尾看到其中一个。

相关内容