从 PDF 复制中文字符

从 PDF 复制中文字符

我使用的是 Windows 7 笔记本电脑,我相信它预装了所有语言包。我可以毫无问题地看到中文字符,通常可以很好地复制它们。(从浏览器到 Microsoft Office 运行良好)。我有许多包含中文字符的 PDF - 每当我尝试将它们复制并粘贴到另一个程序(例如浏览器、Microsoft Office 等)中时,我都会得到奇怪的外来字符,例如:

听我说

这是复制一行。其顺序如下:汉字、拼音(拉丁字母的中文)、然后是英文翻译。

拼音也变得混乱,因为每个字母的音调符号(重音符号)都移动到了它们自己的空间。

任何想法如何解决这一问题?

答案1

从我在您的示例文本中看到的情况来看,PDF 文件不包含中文文本的 Unicode 表示。相反,它可能使用特殊的嵌入字体来表示中文字符,并使用普通字体来表示中文拼音:

我说

应该

我说我只是说

我希望您能看出来变音符号(t īng w ǒshu ō)只是由几个字符叠放在一起构成,而表意文字则根本没有显示出来。您得到的不是U+01D2for而是for and 。ǒU+02C7ˇo

你可以通过下载并试用来轻松检查是否可以复制和粘贴以 Unicode 存储的中文符号这个文件。这是正确的 Unicode PDF,我在 Windows 7 Professional 系统(德语 MUI)上支持 Unicode 的应用程序之间复制和粘贴字符时没有任何问题。

如果这不起作用,那么您必须在系统上安装对中文字体的支持。

如果此方法有效,那么您可能可以通过检查 PDF 文件并查找嵌入的字体来找到解决方法。尝试在 Internet 上查找这些字体并将其安装在您的系统上 - 然后您将看到的不仅仅是一些毫无意义的符号。但是,这仅适用于原始中文符号;拼音无法挽救。

相关内容