有没有什么工具可以像 Acrobat 的 OCR 功能一样自动对扫描的 PDF 文件进行 OCR?

有没有什么工具可以像 Acrobat 的 OCR 功能一样自动对扫描的 PDF 文件进行 OCR?

最好是开源的,但不是必须的。

我有 Adob​​e Acrobat 8​​,非常喜欢它的 OCR 功能,它可以在扫描文档的顶部添加一层不可见的 OCR 文本。因此,您在屏幕上看到的是原始扫描文档,但结果是可搜索的。

我正在寻找一种自动化此过程的方法。我目前有一些用于处理和存档扫描文件的脚本,正在寻找可以直接插入此批处理程序以类似于使用 Acrobat 的方式执行 OCR 的东西。

欢迎所有建议,谢谢!

答案1

我已经在公司文档存档项目中实现了这一点。扫描文件是一个 tif 文件(单页)。然后使用楔形文字创建单个 tif 的 hocr 文件。然后使用hocr2pdf输出 PDF 文件。如果有多个扫描页面,我会使用 gs 将 PDF 合并为一个 PDF 文档。效果非常好,OCR 足以满足我们的需求,并且可以在任何 PDF 查看器中进行搜索。

答案2

你看过 WatchOCR 吗?你可以从这里下载http://www.watchocr.com它是一个免费的开源 OCR 服务器,可以将监视的​​文件夹或网络共享中的纯图像 PDF 转换为可搜索文本的 PDF。

答案3

不过,我喜欢 xeon 的回答奥卡普斯听起来很有趣。

相关内容