使用 Acrobat Pro 将 LaTeX PDF 转换为 Word：如何避免多个空白？

Question

不幸的是，我不相信存在一种万能的方法。

您使用 pdftex 进行编译，还是使用 Luatex 或 Xetex？目前，pdftex 允许您使用命令\pdfinterwordspaceon（可能取决于您的 TeX 版本）。这会在 PDF 中放置实际的空格字符。如果没有该命令，或者使用没有该命令的其他编译器时，PDF 实际上不包含单词之间的空格字符。分隔是通过物理位置进行的。这可能看起来很奇怪，但在非档案 PDF 中完全可以接受（即 PDF/A 除外）。

当您在 Acrobat Pro 中打开 PDF 并向其中“添加标签”时，PDF 将通过一种算法进行检查，该算法会查找超过一定限制的空白，并在那里替换空格字符。这就是导出的文本（或 Word 文档）中出现空格的原因。普通的 Adobe Reader 不会添加标签，因此从 LaTeX PDF 中提取的文本通常会很混乱。如果您没有 Acrobat Pro，免费的 Okular PDF 阅读器（Linux 和 Windows）具有足够的智能，可以将间隙识别为空格。

现在回答最初的问题：由于 Acrobat Pro 实际上并没有读取空格字符，而是根据视觉外观猜测空格应该放在哪里，因此它可能会插入过多或过少的空格。对此你无能为力。最好的情况是，当你将文档导出到 Word 时，你可以使用 Word 自己的搜索/替换功能来查找连续的空格，并将其替换为单个空格。

Answer 1

不幸的是，我不相信存在一种万能的方法。

您使用 pdftex 进行编译，还是使用 Luatex 或 Xetex？目前，pdftex 允许您使用命令\pdfinterwordspaceon（可能取决于您的 TeX 版本）。这会在 PDF 中放置实际的空格字符。如果没有该命令，或者使用没有该命令的其他编译器时，PDF 实际上不包含单词之间的空格字符。分隔是通过物理位置进行的。这可能看起来很奇怪，但在非档案 PDF 中完全可以接受（即 PDF/A 除外）。

当您在 Acrobat Pro 中打开 PDF 并向其中“添加标签”时，PDF 将通过一种算法进行检查，该算法会查找超过一定限制的空白，并在那里替换空格字符。这就是导出的文本（或 Word 文档）中出现空格的原因。普通的 Adobe Reader 不会添加标签，因此从 LaTeX PDF 中提取的文本通常会很混乱。如果您没有 Acrobat Pro，免费的 Okular PDF 阅读器（Linux 和 Windows）具有足够的智能，可以将间隙识别为空格。

现在回答最初的问题：由于 Acrobat Pro 实际上并没有读取空格字符，而是根据视觉外观猜测空格应该放在哪里，因此它可能会插入过多或过少的空格。对此你无能为力。最好的情况是，当你将文档导出到 Word 时，你可以使用 Word 自己的搜索/替换功能来查找连续的空格，并将其替换为单个空格。

使用 Acrobat Pro 将 LaTeX PDF 转换为 Word：如何避免多个空白？

答案1

相关内容