PDF 中的文本在复制时变成乱码，但显示正常

Question

我使用以下方法解压了 pdfmutool clean并查看了。问题似乎是，正如这stackoverflow 问题，很难对字体使用 unicode 编码。因此，PDF 包含的字体使用不同的编码。但是，它还包含/ToUnicode每种字体的对象，这些对象具有从字体字形到 unicode 字符的复杂映射。

现在许多 PDF 查看器（例如xpdfLinux 上的）似乎不关注这种复杂的映射（或者至少不关注具有如此复杂性的映射，尽管它们可能处理更简单的映射），这就是为什么在尝试复制和粘贴时会出现乱码的原因。但是，使用其他 PDF 查看器（例如mupdf) 它确实有效，正如我所证实的。

所以问题出在 PDF 查看器上，而不是文档上。此外，PDF 和 unicode 不能很好地结合在一起，从进行翻译所需的复杂手段可以看出。

可能的解决方案：(1) 向 PDF 查看器的开发人员施压，要求他们完全支持\ToUnicode映射。对于开源的 PDF 查看器，也许您可以自己修复它们。(2) 推广使用支持映射的特定 PDF 查看器。(3) 尝试在 PDF 中使用字形编码与 unicode 编码匹配的字体。这似乎可以通过 16 位 unicode 代码点实现（据我所知，印度字符似乎是 16 位的），但我不知道这样做效果如何，或者您应该使用哪个应用程序来生成此类 PDF。

Answer 1

我使用以下方法解压了 pdfmutool clean并查看了。问题似乎是，正如这stackoverflow 问题，很难对字体使用 unicode 编码。因此，PDF 包含的字体使用不同的编码。但是，它还包含/ToUnicode每种字体的对象，这些对象具有从字体字形到 unicode 字符的复杂映射。

现在许多 PDF 查看器（例如xpdfLinux 上的）似乎不关注这种复杂的映射（或者至少不关注具有如此复杂性的映射，尽管它们可能处理更简单的映射），这就是为什么在尝试复制和粘贴时会出现乱码的原因。但是，使用其他 PDF 查看器（例如mupdf) 它确实有效，正如我所证实的。

所以问题出在 PDF 查看器上，而不是文档上。此外，PDF 和 unicode 不能很好地结合在一起，从进行翻译所需的复杂手段可以看出。

可能的解决方案：(1) 向 PDF 查看器的开发人员施压，要求他们完全支持\ToUnicode映射。对于开源的 PDF 查看器，也许您可以自己修复它们。(2) 推广使用支持映射的特定 PDF 查看器。(3) 尝试在 PDF 中使用字形编码与 unicode 编码匹配的字体。这似乎可以通过 16 位 unicode 代码点实现（据我所知，印度字符似乎是 16 位的），但我不知道这样做效果如何，或者您应该使用哪个应用程序来生成此类 PDF。

PDF 中的文本在复制时变成乱码，但显示正常

答案1

相关内容