最好是开源的,但不是必须的。
我有 Adobe Acrobat 8,非常喜欢它的 OCR 功能,它可以在扫描文档的顶部添加一层不可见的 OCR 文本。因此,您在屏幕上看到的是原始扫描文档,但结果是可搜索的。
我正在寻找一种自动化此过程的方法。我目前有一些用于处理和存档扫描文件的脚本,正在寻找可以直接插入此批处理程序以类似于使用 Acrobat 的方式执行 OCR 的东西。
欢迎所有建议,谢谢!
答案1
答案2
你看过 WatchOCR 吗?你可以从这里下载http://www.watchocr.com它是一个免费的开源 OCR 服务器,可以将监视的文件夹或网络共享中的纯图像 PDF 转换为可搜索文本的 PDF。
答案3
不过,我喜欢 xeon 的回答奥卡普斯听起来很有趣。