删除扫描文本的 jpeg 伪影

删除扫描文本的 jpeg 伪影

我有一本教科书的扫描 PDF,但该 PDF 经过了严格压缩,因此存在大量 JPEG 伪影,影响了其可读性。示例: 在此处输入图片描述 我尝试了各种方法来修复它,但效果并不好。waifu2x:看起来好多了,但仍然有奇怪的瑕疵。而且很慢。 在此处输入图片描述 convert -threshold 70% in.jpg out.png 在此处输入图片描述

有没有快速有效的方法可以去除这些瑕疵?

答案1

PDF 不是图像格式,它只是一个保存图像的容器。您必须提取这些图像,以无损格式保存它们(或者至少降低压缩率,否则您将添加新的伪影)。之后,您可以尝试手动去除伪影或使用现有的自动过滤器。但是,他们需要针对图像手动配置它们。最后一步是将它们重新集成到 PDF 中。

然而,没有“快速、通用”的方法来消除这些伪影。如果有的话,简单地说,这些伪影就不会为了减小文件大小而产生。

消除伪影的唯一方法是识别符号(字母、数字等)并去除其他所有东西,这可以通过 OCR 软件完成。有先进的 OCR 软件可以处理低分辨率文档,但通常不是免费的。您不必购买软件,但可以查找在线服务(市面上有几十种)。请注意,这将从根本上将您的图形文件更改为文本文件。

答案2

我最终找到了该教科书的电子版,我相信它是直接从出版商那里寄来的。这解决了我的问题。

相关内容