无法从 PDF 文档复制非拉丁字符

无法从 PDF 文档复制非拉丁字符

我有一个 pdf 文件,其中包含一些非拉丁欧洲字符。如果我使用高亮工具复制一些文本,并将其粘贴到另一个程序(word、记事本)中,则“特殊”字符无法正确传输(我会在它们的位置得到其他奇怪的字符)。

我尝试从 Acrobat Reader 和 Foxit 复制文本。

我可以在这里做些什么来复制它?

谢谢

答案1

包含 Unicode 文本的普通 PDF 文档不会将文本存储为字符 - 而是将其存储为对所用字体中的字形(字母形状)的引用。在 PDF 文档中嵌入字体时,Acrobat 还会将 Unicode 字体转换为几种较小的字体 - 因此,即使您只使用一种字体,这些引用也可能是对几种较小字体中的字形的引用,而不是对原始字体中的字形的引用。

当从 Acrobat 剪切并粘贴 Unicode 文本到另一个应用程序时,Acrobat 需要足够的信息来从字母形状重建 Unicode 字符。如果使用的字体具有根据以下命名的字形Adobe 字形命名约定然后 Acrobat 可以解析这些名称(也存储在 PDF 文档中)并重建 Unicode 文本。不幸的是,有许多 Unicode 字体(包括标准 Windows 字体)不遵循此约定 - 因此这可能是不可能的。

带标签的 PDF文件还确保将文本可靠地翻译成 Unicode - 因此您应该能够从带标签的 PDF文件。

因此,如果您想避免将来出现此问题,在从包含非拉丁 Unicode 文本的文档创建 PDF 时,请始终将 PDF 文件生成为带标签的 PDF,并尝试仅使用根据 Adob​​e 字形命名约定命名的字形创建的字体。这样做将确保您的 Unicode PDF 文档可搜索,并且 texr 可以可靠地从中剪切和粘贴文本。

答案2

就我的情况而言,从 pdf 复制时,ś、ć、ł、ę 等波兰字符被破坏了。

测试了很多选项。唯一真正有效的是https://online2pdf.com/convert-pdf-to-rtf#

因此,如果您不想浪费时间尝试使用其他解决方案进行转换,建议您使用它。

答案3

也许,在最新版本的 Pdf 编写器中,Unicode 文本不能作为代码点嵌入,只有开放类型字体的字形才会嵌入到 pdf 文档中。

答案4

听起来这可能是一个编码问题。确保两个文件都设置为 Unicode 编码(可能是 UTF-8)。我不太清楚如何在 Acrobat Reader 中执行此操作,但记事本和 Word 允许您进行此设置。

http://www.text-editor.org/encoding.htm有关编码的更多信息。

相关内容