答案1
在 PDF 中,字符形状可能是文本,也可能不是文本(它们可能是矢量路径)。例如,与 Web Colour 表情符号字体不同,它们可能是单色形状,一些 Writer 字体将其存储为方框(带或不带图像叠加),而其他则将其存储为字体中的单色符号等价物。
字符主要是 10101010,然后映射 (CMap) 为 Ascii A 或表情符号 þ,采用命名或无名 (CID) 字体。特别是如果字体未嵌入或子集,则该字符在不同的用户设备中可能会有所不同!这就是 PDF (trans-Portable Doc with Fonts) 的最初原因。
如果字符转换很简单,比如 Roman Cyphers,则可以在 PDF 阅读器中应用更正,但在严重的 MojiBake 情况下,提取不可映射,也不可更正。
通常最糟糕的原因可能是 OCR,其中人工干预(例如检查)不属于 QA 的一部分。