可以查看/阅读 PDF 内容,但无法提取文本

可以查看/阅读 PDF 内容,但无法提取文本

我下载了一个 PDF 文件,我可以查看、打印、修改……但无法进行简单的文本复制。经过简短的搜索,我找不到这是如何实现的。我尝试使用 macOS 预览应用程序和 chrome 的 pdf 查看器。在预览应用程序上我可以看到,?而在 chrome 上我可以看到空白

在下面的图片中您可以看到 8 但是当我尝试复制它时我得到了空白空间或者?我认为这是 macOS 的说法它无法读取该编码?

在此处输入图片描述

答案1

这是从 .jpg 制作 pdf 的限制(副作用)。

除了使用 OCR 软件提取文本外,没有其他方法可以解决这个问题。如果直接从 PDF 中提取文本不起作用,请将其打印为 .jpg 格式。

答案2

您可以使用此工具将 PDF 转换为文本:pdf2text-ocr

然后你就可以复制、搜索等了。文件在浏览器中本地转换,使用光学字符识别 (OCR)并且绝不会上传到外部服务器。它是免费且开源的。

披露:我是 pdf2text-ocr 的作者。我创建它是为了帮助在工作中遇到同样问题的朋友。

相关内容