我的操作系统是 Ubuntu。
我发现有些应用程序可以对 pdf 或 djvu 文件进行 OCR,生成另一个文本文件。
但我想知道如何将 OCR 文本添加到原始 pdf 或 djvu 文件中,以使其在原始 pdf 或 djvu 文件中可选择文本,就像 Adobe Acrobat 在 Windows 上所做的那样?
答案1
对于 PDF,有pdfsandwich
pdfsandwich 生成“三明治”OCR pdf 文件,即,仅包含图像(没有文本)的 pdf 文件将通过光学字符识别(OCR)进行处理,并且文本将被不可见地添加到图像“后面”的每个页面。
这是一个两步过程:
使用以下方式将 OCR 文本添加到新的 PDF 中(这里我使用法语的 tesseract OCR 引擎):
pdfsandwich -sloppy_text -tesseract /path/to/tesseractbin -tesso -l fra ./original.pdf -o ./ocr.pdf
然后使用以下方法将 PDF/OCR 转换为 DjVu:
pdf2djvu -o ./ocr.djvu ./ocr.pdf
答案2
我在 Github 上启动了一个 Bash 项目来帮助从 PDF 转换为 PDF+OCR 和 DjvU+OCR。它基于@meda-beda 的回复和我添加的一些编辑。
它是一个包装pdf三明治和 pdf2djvu。
它是在 Ubuntu-12.10 下开发和测试的,我认为在调整生成的文件(有时比原始文件更大)的选项方面仍有工作要做。