PDF 中的 OCR 和图层文本

PDF 中的 OCR 和图层文本

我想要对 PDF 进行 OCR 处理,使其可搜索。

假设您有一个使用扫描仪制作的 PDF 文档,或者包含图像数据但没有文本数据。这样的 PDF 无法通过 PDF 阅读器或桌面搜索应用程序进行搜索。pdfocr 是我制作的一个简单的实用程序,它接受一个 PDF 文件,然后生成一个添加了文本层的新文件,因此您的 PDF 阅读器可以搜索它,并且可以通过您的桌面搜索应用程序对其进行索引,但打印时仍然相同。

如何使用 pdfocr 使扫描的 PDF 可搜索(OCR)

目前,像 FreeOCR 这样的 Windows 软件只能将 PDF 转换成 TXT 文件,但我只想要原始 PDF可搜索

答案1

Adobe Acrobat 具有您所指的功能。在 Acrobat 10/11 中,该功能位于工具的“识别文本”部分下(请参阅官方文档)。旧版本中也有同样的功能,但访问方式略有不同(请参阅Adobe 博客)。

您可以对任意或所有页面单独执行 OCR,应用 OCR 后 PDF 看起来相同(但随后可搜索)。

相关内容