OCR 可以将生成的文本添加到原始 pdf 和 djvu 文件中吗?

OCR 可以将生成的文本添加到原始 pdf 和 djvu 文件中吗?

我的操作系统是 Ubuntu。

我发现有些应用程序可以对 pdf 或 djvu 文件进行 OCR,生成另一个文本文件。

但我想知道如何将 OCR 文本添加到原始 pdf 或 djvu 文件中,以使其在原始 pdf 或 djvu 文件中可选择文本,就像 Adob​​e Acrobat 在 Windows 上所做的那样?

答案1

对于 PDF,有pdfsandwich

pdfsandwich 生成“三明治”OCR pdf 文件,即,仅包含图像(没有文本)的 pdf 文件将通过光学字符识别(OCR)进行处理,并且文本将被不可见地添加到图像“后面”的每个页面。

这是一个两步过程:

  1. 使用以下方式将 OCR 文本添加到新的 PDF 中(这里我使用法语的 tesseract OCR 引擎):

    pdfsandwich -sloppy_text -tesseract /path/to/tesseractbin -tesso -l fra ./original.pdf -o ./ocr.pdf

  2. 然后使用以下方法将 PDF/OCR 转换为 DjVu:

    pdf2djvu -o ./ocr.djvu ./ocr.pdf

答案2

我在 Github 上启动了一个 Bash 项目来帮助从 PDF 转换为 PDF+OCR 和 DjvU+OCR。它基于@meda-beda 的回复和我添加的一些编辑。

它是一个包装pdf三明治和 pdf2djvu。

它是在 Ubuntu-12.10 下开发和测试的,我认为在调整生成的文件(有时比原始文件更大)的选项方面仍有工作要做。

相关内容