基于 OCR 图像的 PDF

基于 OCR 图像的 PDF

可能重复:
从 .PDF 扫描书中提取文本
如何对 PDF 文档进行 OCR?

我有一本超过 200 页的 pdf 手册,是通过扫描硬拷贝制作的。我想将其转换为可搜索的文本格式,但找不到任何工具来做到这一点。Google 的搜索结果充斥着只能处理文件前几页的 crippleware 试用版软件。我发现的唯一真正免费的应用程序是免费OCR的 pdf 渲染器无法处理文件前几页以外的任何内容。

Google 的 pdf 查看器支持 OCR;但似乎没有提供除复制/粘贴之外的任何导出选项;除了非常繁琐之外,它放在剪贴板上的只是纯文本;这意味着由于水平放置,我会丢失所有的线条图和重要的格式。

答案1

如果您将 PDF 上传到 Google Drive(文档),并将上传转换设置设置为将图像转换为文本,然后将文档转换为 Google 文档(这一切都可以在上传时完成)。然后您应该能够打开文档,单击文件 > 下载为并选择所需的格式?

我刚刚在杂志页面上做了这个,效果还不错,但并不是所有的字体都能被识别。

相关内容