我如何从 PDF 复制此引文？

2024-6-14 • tag-icon

google-chrome pdf copy-paste

我如何从 PDF 复制此引文？

可能重复：
复制粘贴时 PDF 出现乱码

我正在读PDF 副本使用 Google Chrome 阅读 Jerome H. Friedman 的论文“数据挖掘和统计：有何联系？”。

它包含一个有趣的引言，我想将其复制并粘贴到我的博客中。

我用鼠标选中引文，然后按CTRL+C复制文本。文档如下所示：

杰罗姆论文中的一段重点引文。

当我将文本粘贴到记事本、Stack Overflow 或其他任何地方时，产品显示的是类似 Wingdings 的乱码：

➣✍❺❼⑤➭✸❸❊➁❥❸❊⑥▼❽❾❸✘➎✳❸❾②❘➊➥❸❊❸❊⑥❦⑨❘②③✇▲➆ ②❥⑤⑩⑨❘②❥⑤⑩❽❾⑤⑩✇➄⑥▼⑨❏✇➄⑥▼❺➌❽❾❻➀➍♣➂⑦❶❼②❥❸❊➁❷⑨❥❽❾⑤❸❊⑥✗②❥⑤⑩⑨❘②③⑨✘⑤⑥☎②❥➇⑦⑤⑩⑨ ➔❸❊➅⑩❺➌⑨❹❸❊❸❊➍P⑨①②❥❻ ➎✳❸❏②❥➇▼✇▲②➟➊❚➇⑦❸❊⑥✆✇P⑨❘②③✇▲②❥⑤⑩⑨❘②❥⑤⑩❽❾⑤⑩✇➄⑥❦➇▼✇➀⑨↔✇➄⑥❦⑤⑩❺❼❸✶✇♣➇⑦❸❷❻➀➁↔⑨❹➇⑦❸❷➊❚➁❥⑤②❥❸✶⑨ ✇❨➂▼✇➄➂✳❸❊➁✶Þ⑦✇♣❽❾❻➀➍♣➂⑦❶❼②❥❸❊➁➟⑨❥❽❾⑤❸❊⑥✗②❥⑤⑩⑨❘②↔⑨❘②③✇➄➁❹②③⑨❚✇♣❽❾❻➀➍♣➂▼✇➄⑥☛➧➀➏

文本应如下所示：

这个领域的统计学家和计算机科学家之间的一个区别似乎是：当统计学家有了一个想法，他或她会写一篇论文；而计算机科学家则会开办一家公司。

我不得不手动输入该文本。对于这么小的引文，这是可行的，但我如何实际复制我看到的内容呢？

PDF、浏览器、插件或三者的结合是否存在异常？

答案1

最可靠的方法是使用 OCR。

但作为一个肮脏而快速的解决方案，你可以使用 Google快速浏览来自搜索结果对于您的链接，在快速查看中使用选项查看 > 纯 HTML。

它仍然包含一些乱码文本，并且相当无法阅读但大量文本是正确的， 可复制。此处具有搜索功能，因此您可以使用它来定位目标文本并进行复制，而不会出现任何乱码。

详细示例在这里：
Google 搜索结果中的 URL 包含快速查看链接。

Google 搜索结果中的 URL 包含快速查看链接。

然后使用查看选项纯 HTML。

快速查看具有以 HTML 形式查看文档的选项。

在谷歌上HTML 版本，您可以像这样搜索并选择等效文本：

搜索 HTML 版本以查找并选择相关报价。

粘贴到记事本中会产生以下输出：

这个领域的统计学家和计算机科学家之间的一个区别似乎是：当统计学家有一个想法时，他或她会写一篇论文；而计算机科学家则会开一家公司。

与所显示的不完全相同，但足够接近以便您可以使用它。

答案2

您必须先丢弃已与 PDF 关联的损坏文本，然后才能重新进行 OCR。最简单的方法是将其保存为 TIFF 格式，然后使用 Acrobat 打开并重新进行 OCR。当我这样做时，它对我有用。

答案3

看起来像是编码错误的 PDF。请参阅以下主题：

尝试使用以下方式打印 PDF可爱PDF，然后看看生成的 PDF 是否有所改善。

相关内容