如何才能使 OCR 更好地识别我的文档的文本?

如何才能使 OCR 更好地识别我的文档的文本?

我无法让一些带有图片的文档通过 OCR 进行识别。这些文档的分辨率不是特别低——尽管有些文档是扭曲的——但即使使用 Omnipage,我也无法通过 OCR 识别它们。我上传了举个例子(从 DOC 转换为 PDF 以用于 Omnipage)但我还有更多。我该怎么做才能使 OCR 成功?

答案1

不管屏幕上看起来如何,文本图像的分辨率都不是很高。您可以通过在 pdf 查看器中放大视图来看到这一点。图像像素化,并非全是黑白的。

我使用 pdfimages 提取了图像。Gocr 处理了生成的 .ppm 图像,但出现了很多错误。尽管已转换为单色 tiff,但我无法让 tesseract 处理图像。

相关内容