OCR 可以将生成的文本添加到原始 pdf 和 djvu 文件中吗？

Question 1

对于 PDF，有pdfsandwich

pdfsandwich 生成“三明治”OCR pdf 文件，即，仅包含图像（没有文本）的 pdf 文件将通过光学字符识别（OCR）进行处理，并且文本将被不可见地添加到图像“后面”的每个页面。

这是一个两步过程：

使用以下方式将 OCR 文本添加到新的 PDF 中（这里我使用法语的 tesseract OCR 引擎）：

pdfsandwich -sloppy_text -tesseract /path/to/tesseractbin -tesso -l fra ./original.pdf -o ./ocr.pdf
然后使用以下方法将 PDF/OCR 转换为 DjVu：

pdf2djvu -o ./ocr.djvu ./ocr.pdf

Answer

对于 PDF，有pdfsandwich

pdfsandwich 生成“三明治”OCR pdf 文件，即，仅包含图像（没有文本）的 pdf 文件将通过光学字符识别（OCR）进行处理，并且文本将被不可见地添加到图像“后面”的每个页面。

这是一个两步过程：

使用以下方式将 OCR 文本添加到新的 PDF 中（这里我使用法语的 tesseract OCR 引擎）：

pdfsandwich -sloppy_text -tesseract /path/to/tesseractbin -tesso -l fra ./original.pdf -o ./ocr.pdf
然后使用以下方法将 PDF/OCR 转换为 DjVu：

pdf2djvu -o ./ocr.djvu ./ocr.pdf

Question 2

我在 Github 上启动了一个 Bash 项目来帮助从 PDF 转换为 PDF+OCR 和 DjvU+OCR。它基于@meda-beda 的回复和我添加的一些编辑。

它是一个包装pdf三明治和 pdf2djvu。

它是在 Ubuntu-12.10 下开发和测试的，我认为在调整生成的文件（有时比原始文件更大）的选项方面仍有工作要做。

Answer

我在 Github 上启动了一个 Bash 项目来帮助从 PDF 转换为 PDF+OCR 和 DjvU+OCR。它基于@meda-beda 的回复和我添加的一些编辑。

它是一个包装pdf三明治和 pdf2djvu。

它是在 Ubuntu-12.10 下开发和测试的，我认为在调整生成的文件（有时比原始文件更大）的选项方面仍有工作要做。

相关内容