我试图将 PDF 文档中的一堆越南语文本复制/粘贴到 Notepad++(或任何其他程序)中,但都不起作用。粘贴的文本与源文本不同。解决此问题的最佳方法是什么?
例如:
源文本:(源文本见截图)
粘贴的文字:木瓜沙拉〜GÕi ñu ñû Tôm
非常感谢。
编辑:如果源是 Word 文档,则似乎可以按预期复制和粘贴。这里的问题在于 PDF。
答案1
这是因为 PDF 中使用的编码是任意的。
从一些越南语的 PDF 我在互联网上找到了
“编码:自定义“可能意味着生成此 PDF 的程序为了自身方便而编造的(看似随机的)编码。
“嵌入子集“意味着该程序不需要这种字体中的大量字符,因此它仅挑选了所需的几个字符并以看似随机的顺序排列它们(可能是程序在文本中遇到它们的顺序),而新发明的编码基于这种顺序。
它实际上并不是“字符”。 基本上,PDF 不再具有关于“它具有哪个字符”的具有普遍意义的信息。它只有一组索引的形状以及显示这些索引形状的位置和大小的列表。
维基百科说
可以使用“标识”编码(例如 Identity-H(用于水平书写)或 Identity-V(用于垂直书写))制作 CID 键控字体,而无需参考字符集。此类字体可能各自具有唯一的字符集,在这种情况下,字形的 CID 编号不具信息性;通常使用 Unicode 编码,可能带有补充信息。
因此,您可以尝试看看它在 UTF-16 BE 编码中是否有意义。
答案2
我找到了一个对我有用的解决方案 - 虽然无法解释原因。当我在 Acrobat 中打开 PDF 时,我无法复制和粘贴越南语字符。但是,如果我在 Mac 上的预览应用程序版本(我有版本 5.5.3 (719.31))中打开 PDF,我可以毫无问题地复制和粘贴。