PDF 以正确的编码显示，但可选择和搜索的编码错误

Question

简而言之，没有。您的 PDF 中的字体和/或字体元数据缺少从 PDF 字符代码到 unicode 代码点的映射。对于拉丁文本，这通常只是内置编码。对于其他字母表，/ToUnicode会提供显式条目。您的文件两者都没有。

当然，这种映射不是从这些字体中挑选字形所必需的，因此文件显示良好。这就是为什么 PDF 文件（至少在早期版本的标准中）不需要有这样的映射的原因。

除了使用生成现代 PDF 的程序对文档进行栅格化和 OCR 处理外，我认为您陷入了困境。

Answer 1

简而言之，没有。您的 PDF 中的字体和/或字体元数据缺少从 PDF 字符代码到 unicode 代码点的映射。对于拉丁文本，这通常只是内置编码。对于其他字母表，/ToUnicode会提供显式条目。您的文件两者都没有。

当然，这种映射不是从这些字体中挑选字形所必需的，因此文件显示良好。这就是为什么 PDF 文件（至少在早期版本的标准中）不需要有这样的映射的原因。

除了使用生成现代 PDF 的程序对文档进行栅格化和 OCR 处理外，我认为您陷入了困境。

相关内容