复制的文字为何变成垃圾？

Question

在 PDF 中，字符形状可能是文本，也可能不是文本（它们可能是矢量路径）。例如，与 Web Colour 表情符号字体不同，它们可能是单色形状，一些 Writer 字体将其存储为方框（带或不带图像叠加），而其他则将其存储为字体中的单色符号等价物。

字符主要是 10101010，然后映射 (CMap) 为 Ascii A 或表情符号 þ，采用命名或无名 (CID) 字体。特别是如果字体未嵌入或子集，则该字符在不同的用户设备中可能会有所不同！这就是 PDF (trans-Portable Doc with Fonts) 的最初原因。

如果字符转换很简单，比如 Roman Cyphers，则可以在 PDF 阅读器中应用更正，但在严重的 MojiBake 情况下，提取不可映射，也不可更正。

通常最糟糕的原因可能是 OCR，其中人工干预（例如检查）不属于 QA 的一部分。

Answer 1

在 PDF 中，字符形状可能是文本，也可能不是文本（它们可能是矢量路径）。例如，与 Web Colour 表情符号字体不同，它们可能是单色形状，一些 Writer 字体将其存储为方框（带或不带图像叠加），而其他则将其存储为字体中的单色符号等价物。

字符主要是 10101010，然后映射 (CMap) 为 Ascii A 或表情符号 þ，采用命名或无名 (CID) 字体。特别是如果字体未嵌入或子集，则该字符在不同的用户设备中可能会有所不同！这就是 PDF (trans-Portable Doc with Fonts) 的最初原因。

如果字符转换很简单，比如 Roman Cyphers，则可以在 PDF 阅读器中应用更正，但在严重的 MojiBake 情况下，提取不可映射，也不可更正。

通常最糟糕的原因可能是 OCR，其中人工干预（例如检查）不属于 QA 的一部分。

相关内容