我如何从 PDF 复制此引文?

我如何从 PDF 复制此引文?

可能重复:
复制粘贴时 PDF 出现乱码

我正在读PDF 副本使用 Google Chrome 阅读 Jerome H. Friedman 的论文“数据挖掘和统计:有何联系?”。

它包含一个有趣的引言,我想将其复制并粘贴到我的博客中。

我用鼠标选中引文,然后按CTRL+C复制文本。文档如下所示:

杰罗姆论文中的一段重点引文。

当我将文本粘贴到记事本、Stack Overflow 或其他任何地方时,产品显示的是类似 Wingdings 的乱码:

➣✍❺❼⑤➭✸❸❊➁❥❸❊⑥▼❽❾❸✘➎✳❸❾②❘➊➥❸❊❸❊⑥❦⑨❘②③✇▲➆ ②❥⑤⑩⑨❘②❥⑤⑩❽❾⑤⑩✇➄⑥▼⑨❏✇➄⑥▼❺➌❽❾❻➀➍♣➂⑦❶❼②❥❸❊➁❷⑨❥❽❾⑤❸❊⑥✗②❥⑤⑩⑨❘②③⑨✘⑤⑥☎②❥➇⑦⑤⑩⑨ ➔❸❊➅⑩❺➌⑨❹❸❊❸❊➍P⑨①②❥❻ ➎✳❸❏②❥➇▼✇▲②➟➊❚➇⑦❸❊⑥✆✇P⑨❘②③✇▲②❥⑤⑩⑨❘②❥⑤⑩❽❾⑤⑩✇➄⑥❦➇▼✇➀⑨↔✇➄⑥❦⑤⑩❺❼❸✶✇♣➇⑦❸❷❻➀➁↔⑨❹➇⑦❸❷➊❚➁❥⑤②❥❸✶⑨ ✇❨➂▼✇➄➂✳❸❊➁✶Þ⑦✇♣❽❾❻➀➍♣➂⑦❶❼②❥❸❊➁➟⑨❥❽❾⑤❸❊⑥✗②❥⑤⑩⑨❘②↔⑨❘②③✇➄➁❹②③⑨❚✇♣❽❾❻➀➍♣➂▼✇➄⑥☛➧➀➏

文本应如下所示:

这个领域的统计学家和计算机科学家之间的一个区别似乎是:当统计学家有了一个想法,他或她会写一篇论文;而计算机科学家则会开办一家公司。

我不得不手动输入该文本。对于这么小的引文,这是可行的,但我如何实际复制我看到的内容呢?

PDF、浏览器、插件或三者的结合是否存在异常?

答案1

最可靠的方法是使用 OCR。

但作为一个肮脏而快速的解决方案,你可以使用 Google快速浏览来自搜索结果对于您的链接,在快速查看中使用选项查看 > 纯 HTML

它仍然包含一些乱码文本,并且相当无法阅读但大量文本是正确的, 可复制。此处具有搜索功能,因此您可以使用它来定位目标文本并进行复制,而不会出现任何乱码。


详细示例在这里:
Google 搜索结果中的 URL 包含快速查看链接。
然后使用查看选项纯 HTML
快速查看具有以 HTML 形式查看文档的选项。
在谷歌上HTML 版本,您可以像这样搜索并选择等效文本:
搜索 HTML 版本以查找并选择相关报价。
粘贴到记事本中会产生以下输出:

这个领域的统计学家和计算机科学家之间的一个区别似乎是:当统计学家有一个想法时,他或她会写一篇论文;而计算机科学家则会开一家公司。

与所显示的不完全相同,但足够接近以便您可以使用它。

答案2

您必须先丢弃已与 PDF 关联的损坏文本,然后才能重新进行 OCR。最简单的方法是将其保存为 TIFF 格式,然后使用 Acrobat 打开并重新进行 OCR。当我这样做时,它对我有用。

答案3

看起来像是编码错误的 PDF。请参阅以下主题:

尝试使用以下方式打印 PDF可爱PDF,然后看看生成的 PDF 是否有所改善。

相关内容