在 MS Word 图像上添加 OCR 层(从 ​​PDF 中提取)

在 MS Word 图像上添加 OCR 层(从 ​​PDF 中提取)

我正在处理一个 PDF(我用 LaTeX 创建),我需要将其转换为 MS Word 文档,但要保留 *完全* 原始的排版和设计。
由于所有从 PDF 到 Word 的转换器都会破坏一些东西,我认为最好
  • 使用 PDF 作为 Word 文件的背景
  • 添加一个 OCR 图层来选择文本(我不需要编辑文本;只是查看它并添加一些评论)。

有什么方法可以实现吗?将 PDF 的图像包含到 Word 中很容易,但我不知道如何在其上添加 OCR 层。

问候

答案1

这样的层并不存在。

我能想到两种方法:

  1. 如果你还有原始的 LaTeX 文档,将其转换为 Word 会更容易、更精确。你可以使用的一个工具是潘多克,其中转换通过以下命令完成:

     pandoc mydoc.tex -o mydoc.docx
    

    更多信息请参阅文章 如何使用 Pandoc 将 Latex 转换为 MS Word

  2. 使用您找到的最佳转换器将 PDF 转换为 Word,然后手动更正。

相关内容