我有一个扫描的 PDF 文档,其中包含带有像素化文本的图像。OCR 过程已提取文本,但文本看起来质量较差且像素化。我想将此像素化文本转换为高质量的数字字体或矢量格式,以保持其清晰度和流畅度。
我已经尝试过光学字符识别 (OCR),可以复制文本,但质量不够理想。扫描图像中的文本看起来参差不齐且模糊,难以阅读。我想提高文本质量,并将其转换为清晰、无像素化的数字字体或矢量格式。
我可以使用哪些步骤和工具来增强扫描 PDF 图像中的像素化文本?是否有任何特定软件或技术可以帮助我实现此目的?此外,将改进后的文本转换为高质量数字字体或矢量格式的最佳做法是什么?
任何有关图像编辑软件、字体数字化工具或合适工作流程的指导或建议都将不胜感激。谢谢!
答案1
您有两个问题...
- 您的源图像质量太低,无法成功进行 OCR。即使在 Photoshop 中清理并切换为黑白,人类也可以读取,但机器却无法读取。
[更先进的人工智能也许可以。这是“常规”OCR - ReadIris,几年前推出,随 HP 打印机免费提供。]
您需要大幅提高扫描的分辨率。
- 您以“错误的方式”保存了 PDF。大多数 OCR 软件都有 PDF 选项,可确定 PDF 的呈现方式。
我猜你使用了“文本上方显示图像”功能,这样文件看起来就像原始扫描件一样,但下方隐藏了“真实”的可选文本。在 PDF 阅读器中,它看起来会像这样,其中有一些文本被选中。实际选中的不是图像,而是下方隐藏的文本。
如果你将显示顺序翻转为“文本在图像上”,那么你会看到这个……
仍然很糟糕,因为你的扫描无法正确读取[从问题 1 开始]。
如果你仅保存为文本,则你会看到这个...
我把这张照片放大了,这样你就能看到——虽然这完全是垃圾——但至少锋利的垃圾。现在这完全是矢量,根本没有光栅图像,因此它将始终很清晰。
因此,修复问题 1 将允许您更改问题 2,以保留 [清晰的] 基于矢量的 PDF。
如果您还需要保留图片,那么您需要选择“图像覆盖文本”还是“文本覆盖图片”效果最好。每种类型都测试几页。
答案2
改进扫描源的最佳方法之一是再次使用原件,因此这里是 200 DPI TIFF 传真机所看到的区域,也是我们识别文字的极限。
但是分辨率不应该固定不变。这是原始屏幕,分辨率较低,为 96 DPI。因此,纯色调看起来更好,没有任何 JPG 内容或渗色,不会混淆任何 OCR 设备。
问题是,当计算机程序捕获 96 DPI 时,它看起来像这样
然而,由于它很干净,所以在网上运行良好OCR像素到文字清晰矢量字符处理器,但如果密度更高(如 192 dpi)会更好。
因此,您可能会抱怨“您使用了干净的源扫描,这不公平”,以说明您的观点,而这就是重点,与好的新鲜的、甚至是低密度的 PNG 样式的扫描相比,糟糕的 JPEG 扫描根本无法产生任何有意义的结果。
回到分辨率问题,这里存在一个问题,即在 192 dpi 下,文本不能清晰地读取单个字符(OCR 将尝试逐个替换字符,然后从中检测一个单词)
但如果以 600dpi 扫描,文本显然是单个字符
OCR 仍然会犯错误,但错误较少,因此i m
被视为单一W
所以现在如果我们使用你的源代码,我们可以看到即使清理干净,它也很容易失败
单个字符将被忽略或误读 因此,对结果运行编辑器拼写检查至关重要
最后
至于将字母显示为矢量的质量,这取决于 OCR 应用程序,因此,这个应用程序已经整理了单词以方便读者阅读(仍然存在如上所述的一些问题),并将字符生成为适合显示为矢量的字体(很像 Word 转换)但错误会同样明显,因为源图像这里没有覆盖。