为了利用 Word 的语法和拼写检查功能,我想使用 Adobe Acrobat Pro 将 PDF 导出为 Word 文档。
这样做时,生成的单词包含多个空格,从而导致拼写检查性能不佳。
我想要一种连续运行多个字符串替换操作的替代方法(即将两个空格替换为一个空格)。
是否有任何包/选项可以帮助防止出现多个空格?
答案1
不幸的是,我不相信存在一种万能的方法。
您使用 pdftex 进行编译,还是使用 Luatex 或 Xetex?目前,pdftex 允许您使用命令\pdfinterwordspaceon
(可能取决于您的 TeX 版本)。这会在 PDF 中放置实际的空格字符。如果没有该命令,或者使用没有该命令的其他编译器时,PDF 实际上不包含单词之间的空格字符。分隔是通过物理位置进行的。这可能看起来很奇怪,但在非档案 PDF 中完全可以接受(即 PDF/A 除外)。
当您在 Acrobat Pro 中打开 PDF 并向其中“添加标签”时,PDF 将通过一种算法进行检查,该算法会查找超过一定限制的空白,并在那里替换空格字符。这就是导出的文本(或 Word 文档)中出现空格的原因。普通的 Adobe Reader 不会添加标签,因此从 LaTeX PDF 中提取的文本通常会很混乱。如果您没有 Acrobat Pro,免费的 Okular PDF 阅读器(Linux 和 Windows)具有足够的智能,可以将间隙识别为空格。
现在回答最初的问题:由于 Acrobat Pro 实际上并没有读取空格字符,而是根据视觉外观猜测空格应该放在哪里,因此它可能会插入过多或过少的空格。对此你无能为力。最好的情况是,当你将文档导出到 Word 时,你可以使用 Word 自己的搜索/替换功能来查找连续的空格,并将其替换为单个空格。