PDF 中的文本模糊

PDF 中的文本模糊

我有一个 pdf,里面的文字很模糊。文字本身可读,但会造成很大的负担。
这是文本的一个示例。

这

有办法解决吗?

答案1

这是一个栅格图层,不幸的是,它也包含文本。修复此类 PDF 最简单的方法可能是使用ABBYY FineReader(商业版,适用于 Windows、Linux、mac OS)。根据所需场景加载和处理 PDF 或图像文件。例如,这里我们实际上不需要预处理,在为文档选择英语语言后,OCR 运行良好:

在此处输入图片描述

保存已识别文档时,请确保选择仅限文字和图片在保存模式部分:

在此处输入图片描述

这将产生一个“干净”的 PDF,其中包含可扩展且无需像素化的矢量字体:

在此处输入图片描述

另外,你也可以使用其他免费的开源 OCR 工具,例如立方体/文本捕获/国家预防服务中心并使用LibreOffice作家/乳胶使用识别的文本创建新的 PDF。

答案2

文本已被栅格化——变成“点”。

它仍然应该是矢量——使用实时绘制到屏幕上的实际字体。

这可能是因为该文档是扫描的并且实际上只是一张照片,或者是因为在其历史记录的某个时刻缺少了预期的字体。

唯一真正的解决办法是找到一个 OCR(光学字符识别)应用程序并重新扫描它。

答案3

造成模糊的原因还有另一种可能性:在扫描的栅格层上方放置了过滤层。

几年前,我曾在一个有网络文档扫描仪的地方工作。您可以扫描您的资料,然后扫描仪会通过电子邮件发送副本给您 - 或者您可以直接将其发送到其他人的电子邮件地址。

有时候,文本文档的扫描结果会非常模糊。作为 IT 知识最丰富的人,我很难找出问题所在。

原来,扫描仪错误地将文本识别为图片,并在其上方插入过滤器以减少莫尔效应这是由半色调图像的点和扫描仪的分辨率产生的。

您可以使用 PDF 编辑器删除文本上方的过滤层来修复那些模糊的文本扫描。

我始终搞不明白为什么有些扫描件有滤镜,而有些没有。半色调识别算法中存在一些错误或极端情况——谁知道呢。

您的模糊可能不是由过滤器引起的,但这一点需要牢记。

相关内容