将 ORed 文本合并到 pdf 文件或从 pdf 文件导出

将 ORed 文本合并到 pdf 文件或从 pdf 文件导出
  1. 给定一个 pdf 文件和一个 OCRed 文本的 hocr 格式的 html 文件,我们是否可以将 OCRed 文本合并到 pdf 文件中,以便新的 pdf 文件可以搜索文本?

    例如,我有一个扫描的pdf,没有可搜索的文本,大约5MB。我将其转换为 djvu 文件,然后将其拆分为单页 tiff 文件,然后使用 .tiff 文件将页面的一些 hocr 文件与 tiff 文件合并pdfbeads。现在我的新 pdf 文件是 23MB。所以我想知道是否可以将 hocr 文件直接合并到原始 pdf 文件中,以达到比 23MB 小得多的大小?

  2. 相反,给定一个带有 OCRed 文本的 pdf 文件,我们可以将其 OCRed 文本导出为 hocr 格式的 html 文件吗?

    我们是否还可以从 pdf 文件中删除 OCRed 文本,而不打印到 pdf 文件?

  3. 如果不限于 hocr 格式,是否有其他格式具有进行上述合并和/或提取的程序?

谢谢。

答案1

  1. 可能是的 - 有 hocr2pdf 工具(来自 ExactImage)可用,但我还没有尝试过它来确认

一些注意事项:如果您只想制作可搜索的 PDF,您可以使用更简单的 GUI 程序,例如 gscan2pdf 等,它们允许 pdf 输入。您还可以使用最新版本的 tesseract 制作可搜索的 PDF。

  1. 在 html 文件中,您可以使用 xpdf 工具包中的 pdf2html 导出,但我猜您对结果不会很满意,而且它们不会采用 hocr 格式。

对于你的最后一个问题,我不知道,但如果文本是 OCRed,你肯定可以更轻松地删除。仅供参考,使用 djvudigital 从 pdf 制作 HQ djvu,您可以使用 djvused 从 djvulibre 轻松删除文本。

忘了提及 LibreDraw,它非常适合编辑 PDF 文件。我这里没有 OCRed PDF,所以不知道它会提供什么,但应该值得一试。

相关内容