如何才能使 OCR 更好地识别我的文档的文本？

Question

不管屏幕上看起来如何，文本图像的分辨率都不是很高。您可以通过在 pdf 查看器中放大视图来看到这一点。图像像素化，并非全是黑白的。

我使用 pdfimages 提取了图像。Gocr 处理了生成的 .ppm 图像，但出现了很多错误。尽管已转换为单色 tiff，但我无法让 tesseract 处理图像。

Answer 1

不管屏幕上看起来如何，文本图像的分辨率都不是很高。您可以通过在 pdf 查看器中放大视图来看到这一点。图像像素化，并非全是黑白的。

我使用 pdfimages 提取了图像。Gocr 处理了生成的 .ppm 图像，但出现了很多错误。尽管已转换为单色 tiff，但我无法让 tesseract 处理图像。

相关内容