如何将扫描的图像转换为 PDF 格式并转换为可搜索的 PDF 文件?

如何将扫描的图像转换为 PDF 格式并转换为可搜索的 PDF 文件?

我有一本扫描书的 PDF。

我正在寻找一款可以执行 OCR 的免费软件,然后提供将其再次保存为 PDF 或文档的选项。

有吗?

答案1

您可以下载 30 天试用版Adobe Acrobat 专业版并使用“OCR 文本识别”功能(“文档 > OCR 文本识别 > 使用 OCR 识别文本...”)。在设置对话框中,选择“可搜索图像”作为输出样式。这将保留页面图像但嵌入 OCR 文本,以便文档可搜索并允许选择、复制和粘贴文本。

运行 OCR 后,您需要使用“查找 OCR 可疑字符”功能来确认或更正 OCR 不确定的单词。

答案2

如果您有 Google 帐户,那么 Google Docs 现在包含上传 PDF 文件并对其执行 OCR 的功能。

我已经亲自尝试过并且它可以对格式良好的 PDF 做出公平的评价。

格式基本被破坏,但是文本似乎还存留。

答案3

在网上找到了下列产品,但是我还没有用过。

在线OCR

OCR终端

OCR 终端是一种在线 OCR 服务,可对您的扫描图像和 pdf 文件执行光学字符识别 (OCR),并将其呈现为可编辑和可文本搜索的文档。

免费 OCR

Free-OCR.com 是一款免费的在线 OCR(光学字符识别)工具。您可以使用它对您提供的任何图像执行 OCR。
此服务是免费的,无需注册。我们也不需要您的电子邮件地址。
只需上传您的图像文件即可。Free-OCR 可以接受 JPG、GIF、TIFF BMP 或 PDF(仅限第一页)。唯一的限制是图像不得大于 2MB、宽度或高度不得超过 5000 像素,并且每小时最多可上传 10 张图片。

Maestro 识别服务器是商业性的,但有一个在线试用演示。

免费软件

免费OCR- 仅适用于图像。

FreeOCR 是一款扫描和 OCR 程序,包括 Tesseract 免费 OCR 引擎(也称为 Tesseract GUI)。它包含一个 Windows 安装程序,使用起来非常简单,支持多页 tiff、传真文档以及大多数图像类型,包括 Tesseract 引擎本身无法读取的压缩 Tiff。它现在具有 Twain 扫描功能。

pdfsandwich- pdf -> pdf 转换器。

pdfsandwich 是一个用于 OCR 扫描书籍或期刊的命令行工具。它甚至可以识别多列文本的页面布局。

本质上,pdfsandwich 是一个包装器脚本,它调用以下二进制文件:convert、cuneiform、gs 和 hocr2pdf。已知它可以在 Unix 系统上运行,并且已在 Linux 和 MacOS X 上进行了测试。它支持在多处理器系统上进行并行处理。

答案4

这是一种非常奇怪的方法,就是让 Google 在网站上为你编制索引和 OCR,然后检索它。

相关内容