tesseract:是否可以更改 OCRed pdf 中的字体输出?

tesseract:是否可以更改 OCRed pdf 中的字体输出?

跟进如何 OCR pdf 文件并获取 pdf 中存储的文本?我已经成功制作了OCRed pdf页面。

然而,在 Evince 中,这些字母没有显示出来。我的意思是我看不到这些字符,但我可以选择它们,复制它们并成功地将它们粘贴到其他地方。这似乎不是 Evince 的错误:https://bugzilla.redhat.com/show_bug.cgi?id=1364201

当使用 pdfsandwich 启动 pdf 页面的 OCR 时,tesseract 会生成一个页面

包含一种没有任何可用字形的字体(他们将其命名为 GlyphLessFont)。它只有 .notdef 和 .null 替换(正方形)。如果该字符没有字形,Evince 将使用 .notdef 字形。 Okular 突出显示文本的原因是它在图像中突出显示文本,而不是像 evince 那样作为常规文本。

pdftotext 识别字符。

现在的问题是:可以告诉 tesseract 使用不同的字体吗?

答案1

您可以根据自己的喜好自定义这部分源代码并在此处更改字体。进行更改后,您将必须从源代码重建 tesseract。

Tesseract Github Renderer.h

相关内容