可能重复:
复制粘贴时 PDF 出现乱码
我正在读PDF 副本使用 Google Chrome 阅读 Jerome H. Friedman 的论文“数据挖掘和统计:有何联系?”。
它包含一个有趣的引言,我想将其复制并粘贴到我的博客中。
我用鼠标选中引文,然后按CTRL+C复制文本。文档如下所示:
当我将文本粘贴到记事本、Stack Overflow 或其他任何地方时,产品显示的是类似 Wingdings 的乱码:
➣✍❺❼⑤➭✸❸❊➁❥❸❊⑥▼❽❾❸✘➎✳❸❾②❘➊➥❸❊❸❊⑥❦⑨❘②③✇▲➆ ②❥⑤⑩⑨❘②❥⑤⑩❽❾⑤⑩✇➄⑥▼⑨❏✇➄⑥▼❺➌❽❾❻➀➍♣➂⑦❶❼②❥❸❊➁❷⑨❥❽❾⑤❸❊⑥✗②❥⑤⑩⑨❘②③⑨✘⑤⑥☎②❥➇⑦⑤⑩⑨ ➔❸❊➅⑩❺➌⑨❹❸❊❸❊➍P⑨①②❥❻ ➎✳❸❏②❥➇▼✇▲②➟➊❚➇⑦❸❊⑥✆✇P⑨❘②③✇▲②❥⑤⑩⑨❘②❥⑤⑩❽❾⑤⑩✇➄⑥❦➇▼✇➀⑨↔✇➄⑥❦⑤⑩❺❼❸✶✇♣➇⑦❸❷❻➀➁↔⑨❹➇⑦❸❷➊❚➁❥⑤②❥❸✶⑨ ✇❨➂▼✇➄➂✳❸❊➁✶Þ⑦✇♣❽❾❻➀➍♣➂⑦❶❼②❥❸❊➁➟⑨❥❽❾⑤❸❊⑥✗②❥⑤⑩⑨❘②↔⑨❘②③✇➄➁❹②③⑨❚✇♣❽❾❻➀➍♣➂▼✇➄⑥☛➧➀➏
文本应如下所示:
这个领域的统计学家和计算机科学家之间的一个区别似乎是:当统计学家有了一个想法,他或她会写一篇论文;而计算机科学家则会开办一家公司。
我不得不手动输入该文本。对于这么小的引文,这是可行的,但我如何实际复制我看到的内容呢?
PDF、浏览器、插件或三者的结合是否存在异常?
答案1
最可靠的方法是使用 OCR。
但作为一个肮脏而快速的解决方案,你可以使用 Google快速浏览来自搜索结果对于您的链接,在快速查看中使用选项查看 > 纯 HTML。
它仍然包含一些乱码文本,并且相当无法阅读但大量文本是正确的, 可复制。此处具有搜索功能,因此您可以使用它来定位目标文本并进行复制,而不会出现任何乱码。
详细示例在这里:
然后使用查看选项纯 HTML。
在谷歌上HTML 版本,您可以像这样搜索并选择等效文本:
粘贴到记事本中会产生以下输出:
这个领域的统计学家和计算机科学家之间的一个区别似乎是:当统计学家有一个想法时,他或她会写一篇论文;而计算机科学家则会开一家公司。
与所显示的不完全相同,但足够接近以便您可以使用它。
答案2
您必须先丢弃已与 PDF 关联的损坏文本,然后才能重新进行 OCR。最简单的方法是将其保存为 TIFF 格式,然后使用 Acrobat 打开并重新进行 OCR。当我这样做时,它对我有用。
答案3
看起来像是编码错误的 PDF。请参阅以下主题:
尝试使用以下方式打印 PDF可爱PDF,然后看看生成的 PDF 是否有所改善。