在扫描的图像上手动添加文本层(OCR)

在扫描的图像上手动添加文本层(OCR)

我有一个 PDF,其中包含旧印刷书籍页面的扫描图像。(它尚未进行 OCR,因此无法搜索。)使用 Google云视觉 API,可以执行 OCR,更有趣的是,获取每个单词(边界框)的位置。现在,使用 TeX/LaTeX(使用任何引擎),有没有办法将这些词添加到 PDF 的相应位置,即手动向 PDF 添加一个(不可见的)OCR/文本层,以便它仍然是可见的扫描图像,但可以选择和复制文本?

(我意识到,由于我们没有使用任何 LaTeX 的结构化文档功能,也没有使用任何 TeX 的排版功能(将段落分成行、进行字距调整等),并且手动定位甚至不可见的文本,因此似乎 TeX 对这项工作来说并不是真正必要的。但我也不知道任何其他工具:有类似的工具可以tesseract自动执行 OCR 并添加文本,但我想要控制权,能够选择将哪些文本放到哪里。可能有一种方法可以在 TeX/XeTeX/LuaTeX 中做到这一点。)

答案1

您可以使用 transparent 包使文本透明。复制和粘贴应该可以正常工作,但找到要复制的文本有点困难 ;-) transparent 目前适用于 pdflatex 和 lualatex,在下一个文本直播中它也将适用于 (x)dvipdfmx。

\documentclass{article}
\usepackage{pdfpages,transparent}
\usepackage{eso-pic}

\AddToShipoutPictureFG{\AtPageCenter{\texttransparent{0}{\Huge This is some text in the center}}}
\begin{document}
\includepdf[pages=1]{example-image-a}
\end{document}

在此处输入图片描述

相关内容