无法从 PDF 文档复制非拉丁字符

Question 1

包含 Unicode 文本的普通 PDF 文档不会将文本存储为字符 - 而是将其存储为对所用字体中的字形（字母形状）的引用。在 PDF 文档中嵌入字体时，Acrobat 还会将 Unicode 字体转换为几种较小的字体 - 因此，即使您只使用一种字体，这些引用也可能是对几种较小字体中的字形的引用，而不是对原始字体中的字形的引用。

当从 Acrobat 剪切并粘贴 Unicode 文本到另一个应用程序时，Acrobat 需要足够的信息来从字母形状重建 Unicode 字符。如果使用的字体具有根据以下命名的字形Adobe 字形命名约定然后 Acrobat 可以解析这些名称（也存储在 PDF 文档中）并重建 Unicode 文本。不幸的是，有许多 Unicode 字体（包括标准 Windows 字体）不遵循此约定 - 因此这可能是不可能的。

带标签的 PDF文件还确保将文本可靠地翻译成 Unicode - 因此您应该能够从带标签的 PDF文件。

因此，如果您想避免将来出现此问题，在从包含非拉丁 Unicode 文本的文档创建 PDF 时，请始终将 PDF 文件生成为带标签的 PDF，并尝试仅使用根据 Adobe 字形命名约定命名的字形创建的字体。这样做将确保您的 Unicode PDF 文档可搜索，并且 texr 可以可靠地从中剪切和粘贴文本。

Answer

包含 Unicode 文本的普通 PDF 文档不会将文本存储为字符 - 而是将其存储为对所用字体中的字形（字母形状）的引用。在 PDF 文档中嵌入字体时，Acrobat 还会将 Unicode 字体转换为几种较小的字体 - 因此，即使您只使用一种字体，这些引用也可能是对几种较小字体中的字形的引用，而不是对原始字体中的字形的引用。

当从 Acrobat 剪切并粘贴 Unicode 文本到另一个应用程序时，Acrobat 需要足够的信息来从字母形状重建 Unicode 字符。如果使用的字体具有根据以下命名的字形Adobe 字形命名约定然后 Acrobat 可以解析这些名称（也存储在 PDF 文档中）并重建 Unicode 文本。不幸的是，有许多 Unicode 字体（包括标准 Windows 字体）不遵循此约定 - 因此这可能是不可能的。

带标签的 PDF文件还确保将文本可靠地翻译成 Unicode - 因此您应该能够从带标签的 PDF文件。

因此，如果您想避免将来出现此问题，在从包含非拉丁 Unicode 文本的文档创建 PDF 时，请始终将 PDF 文件生成为带标签的 PDF，并尝试仅使用根据 Adobe 字形命名约定命名的字形创建的字体。这样做将确保您的 Unicode PDF 文档可搜索，并且 texr 可以可靠地从中剪切和粘贴文本。

Question 2

就我的情况而言，从 pdf 复制时，ś、ć、ł、ę 等波兰字符被破坏了。

测试了很多选项。唯一真正有效的是https://online2pdf.com/convert-pdf-to-rtf#。

因此，如果您不想浪费时间尝试使用其他解决方案进行转换，建议您使用它。

Answer

就我的情况而言，从 pdf 复制时，ś、ć、ł、ę 等波兰字符被破坏了。

测试了很多选项。唯一真正有效的是https://online2pdf.com/convert-pdf-to-rtf#。

因此，如果您不想浪费时间尝试使用其他解决方案进行转换，建议您使用它。

Question 3

也许，在最新版本的 Pdf 编写器中，Unicode 文本不能作为代码点嵌入，只有开放类型字体的字形才会嵌入到 pdf 文档中。

Answer

也许，在最新版本的 Pdf 编写器中，Unicode 文本不能作为代码点嵌入，只有开放类型字体的字形才会嵌入到 pdf 文档中。

Question 4

听起来这可能是一个编码问题。确保两个文件都设置为 Unicode 编码（可能是 UTF-8）。我不太清楚如何在 Acrobat Reader 中执行此操作，但记事本和 Word 允许您进行此设置。

看http://www.text-editor.org/encoding.htm有关编码的更多信息。

Answer

听起来这可能是一个编码问题。确保两个文件都设置为 Unicode 编码（可能是 UTF-8）。我不太清楚如何在 Acrobat Reader 中执行此操作，但记事本和 Word 允许您进行此设置。

看http://www.text-editor.org/encoding.htm有关编码的更多信息。

无法从 PDF 文档复制非拉丁字符

答案1

答案2

答案3

答案4

相关内容