使用 Acrobat Pro 将 LaTeX PDF 转换为 Word:如何避免多个空白?

使用 Acrobat Pro 将 LaTeX PDF 转换为 Word:如何避免多个空白?

为了利用 Word 的语法和拼写检查功能,我想使用 Adob​​e Acrobat Pro 将 PDF 导出为 Word 文档。

这样做时,生成的单词包含多个空格,从而导致拼写检查性能不佳。

我想要一种连续运行多个字符串替换操作的替代方法(即将两个空格替换为一个空格)。

是否有任何包/选项可以帮助防止出现多个空格?

答案1

不幸的是,我不相信存在一种万能的方法。

您使用 pdftex 进行编译,还是使用 Luatex 或 Xetex?目前,pdftex 允许您使用命令\pdfinterwordspaceon(可能取决于您的 TeX 版本)。这会在 PDF 中放置实际的空格字符。如果没有该命令,或者使用没有该命令的其他编译器时,PDF 实际上不包含单词之间的空格字符。分隔是通过物理位置进行的。这可能看起来很奇怪,但在非档案 PDF 中完全可以接受(即 PDF/A 除外)。

当您在 Acrobat Pro 中打开 PDF 并向其中“添加标签”时,PDF 将通过一种算法进行检查,该算法会查找超过一定限制的空白,并在那里替换空格字符。这就是导出的文本(或 Word 文档)中出现空格的原因。普通的 Adob​​e Reader 不会添加标签,因此从 LaTeX PDF 中提取的文本通常会很混乱。如果您没有 Acrobat Pro,免费的 Okular PDF 阅读器(Linux 和 Windows)具有足够的智能,可以将间隙识别为空格。

现在回答最初的问题:由于 Acrobat Pro 实际上并没有读取空格字符,而是根据视觉外观猜测空格应该放在哪里,因此它可能会插入过多或过少的空格。对此你无能为力。最好的情况是,当你将文档导出到 Word 时,你可以使用 Word 自己的搜索/替换功能来查找连续的空格,并将其替换为单个空格。

相关内容