从 PDF 复制粘贴后可读的文本变得完全不可读

2024-6-25 • tag-icon

这是什么？当我选择 PDF 文档中完全可读的拉丁文（没有特定于语言的字符，实际上是公司名称和街道地址）文本，然后将其复制并粘贴到任何目标（即：Word、Notepad、Notepad++、浏览器、Gmail）时，我得到了这样的结果：

'ĂŵĂŶ͘ƉůdŽŵĂƐnjdƌĞũĚĞƌŽǁƐŬŝ
Ƶů͘'ƌĂŶŝĐnjŶĂςϭĂͬϭϬ
κϬͲϬϭΘ<ĂƚŽǁŝĐĞ
E/W͗ερκϮϭεςκϯρ

以上内容已复制粘贴到浏览器 (Chrome) / Gmails 和 Word。当我从 PDF 复制相同的文本并将其粘贴到 Notepad++ 时，我得到了类似这样的结果（类似，但不相同）：

无论我从 Gmail/Chrome 的 PDF 预览中复制文本（原始文档附加到电子邮件中）还是保存文件并在 Foxit Reader 中打开它，我都会得到相同的结果。

这是字符编码的问题还是某种奇怪的加密？

是否有任何解决方法可以从源 PDF 获取（复制粘贴）实际文本？还是我只能手动输入了？

相关内容