我无法让一些带有图片的文档通过 OCR 进行识别。这些文档的分辨率不是特别低——尽管有些文档是扭曲的——但即使使用 Omnipage,我也无法通过 OCR 识别它们。我上传了举个例子(从 DOC 转换为 PDF 以用于 Omnipage)但我还有更多。我该怎么做才能使 OCR 成功?
答案1
不管屏幕上看起来如何,文本图像的分辨率都不是很高。您可以通过在 pdf 查看器中放大视图来看到这一点。图像像素化,并非全是黑白的。
我使用 pdfimages 提取了图像。Gocr 处理了生成的 .ppm 图像,但出现了很多错误。尽管已转换为单色 tiff,但我无法让 tesseract 处理图像。