复制的文字为何变成垃圾?

复制的文字为何变成垃圾?

这不是我遇到的第一个 PDF,其中一些文本可以成功复制到剪贴板并粘贴到其他地方,而其他部分则变成了垃圾。

以下是一个例子:

在此处输入图片描述

我使用 Adob​​e Acrobat、Foxit Reader 和 SumatraPDF 打开了同一个文档,它们都显示同样的问题。

为什么会发生这种情况?原始 PDF 制作应用程序(此处:“PDFCreator”)对某些页面的处理方式是否不同?原始文档的不同页面是否可能是使用不同的工具构建的(例如,某些页面使用 Word,其他页面使用 PowerPoint)?

有什么我可以尝试的吗?

值得一提的是,这是在 Windows 7 主机上。

谢谢。

答案1

在 PDF 中,字符形状可能是文本,也可能不是文本(它们可能是矢量路径)。例如,与 Web Colour 表情符号字体不同,它们可能是单色形状,一些 Writer 字体将其存储为方框(带或不带图像叠加),而其他则将其存储为字体中的单色符号等价物。

字符主要是 10101010,然后映射 (CMap) 为 Ascii A 或表情符号 þ,采用命名或无名 (CID) 字体。特别是如果字体未嵌入或子集,则该字符在不同的用户设备中可能会有所不同!这就是 PDF (trans-Portable Doc with Fonts) 的最初原因。

如果字符转换很简单,比如 Roman Cyphers,则可以在 PDF 阅读器中应用更正,但在严重的 MojiBake 情况下,提取不可映射,也不可更正。

通常最糟糕的原因可能是 OCR,其​​中人工干预(例如检查)不属于 QA 的一部分。

相关内容