如何将扫描的图像转换为 PDF 格式并转换为可搜索的 PDF 文件？

Question 1

您可以下载 30 天试用版Adobe Acrobat 专业版并使用“OCR 文本识别”功能（“文档 > OCR 文本识别 > 使用 OCR 识别文本...”）。在设置对话框中，选择“可搜索图像”作为输出样式。这将保留页面图像但嵌入 OCR 文本，以便文档可搜索并允许选择、复制和粘贴文本。

运行 OCR 后，您需要使用“查找 OCR 可疑字符”功能来确认或更正 OCR 不确定的单词。

Answer

您可以下载 30 天试用版Adobe Acrobat 专业版并使用“OCR 文本识别”功能（“文档 > OCR 文本识别 > 使用 OCR 识别文本...”）。在设置对话框中，选择“可搜索图像”作为输出样式。这将保留页面图像但嵌入 OCR 文本，以便文档可搜索并允许选择、复制和粘贴文本。

运行 OCR 后，您需要使用“查找 OCR 可疑字符”功能来确认或更正 OCR 不确定的单词。

Question 2

如果您有 Google 帐户，那么 Google Docs 现在包含上传 PDF 文件并对其执行 OCR 的功能。

我已经亲自尝试过并且它可以对格式良好的 PDF 做出公平的评价。

格式基本被破坏，但是文本似乎还存留。

Answer

如果您有 Google 帐户，那么 Google Docs 现在包含上传 PDF 文件并对其执行 OCR 的功能。

我已经亲自尝试过并且它可以对格式良好的 PDF 做出公平的评价。

格式基本被破坏，但是文本似乎还存留。

Question 3

在网上找到了下列产品，但是我还没有用过。

在线OCR

OCR终端

OCR 终端是一种在线 OCR 服务，可对您的扫描图像和 pdf 文件执行光学字符识别 (OCR)，并将其呈现为可编辑和可文本搜索的文档。

免费 OCR

Free-OCR.com 是一款免费的在线 OCR（光学字符识别）工具。您可以使用它对您提供的任何图像执行 OCR。
此服务是免费的，无需注册。我们也不需要您的电子邮件地址。
只需上传您的图像文件即可。Free-OCR 可以接受 JPG、GIF、TIFF BMP 或 PDF（仅限第一页）。唯一的限制是图像不得大于 2MB、宽度或高度不得超过 5000 像素，并且每小时最多可上传 10 张图片。

Maestro 识别服务器是商业性的，但有一个在线试用演示。

免费软件

免费OCR- 仅适用于图像。

FreeOCR 是一款扫描和 OCR 程序，包括 Tesseract 免费 OCR 引擎（也称为 Tesseract GUI）。它包含一个 Windows 安装程序，使用起来非常简单，支持多页 tiff、传真文档以及大多数图像类型，包括 Tesseract 引擎本身无法读取的压缩 Tiff。它现在具有 Twain 扫描功能。

pdfsandwich- pdf -> pdf 转换器。

pdfsandwich 是一个用于 OCR 扫描书籍或期刊的命令行工具。它甚至可以识别多列文本的页面布局。

本质上，pdfsandwich 是一个包装器脚本，它调用以下二进制文件：convert、cuneiform、gs 和 hocr2pdf。已知它可以在 Unix 系统上运行，并且已在 Linux 和 MacOS X 上进行了测试。它支持在多处理器系统上进行并行处理。

Answer