答案1
奥卡普斯:
该软件部分基于 Tesseract,这是目前最好的开源 OCR 引擎。虽然该项目预计将于明年年底发布,并将用于 Google 的图书扫描项目,但该团队还考虑了一些有趣的应用:
- Web 服务接口
- PDF、相机和屏幕 OCR
- 与桌面搜索工具集成:Beagle、Spotlight、Google Desktop
OCRopus(tm) 是一种先进的文档分析和 OCR 系统,具有可插入布局分析、可插入字符识别、统计自然语言建模和多语言功能。
OCRopus 引擎基于两个研究项目:20 世纪 90 年代中期开发并由美国人口普查局部署的高性能手写识别器,以及新颖的高性能布局分析方法。
OCRopus 的开发由 Google 赞助,最初旨在实现高吞吐量、高容量的文档转换。我们预计它也将成为许多其他应用程序的优秀 OCR 系统。 链接:
GOCR 是一款 OCR(光学字符识别)程序,采用 GNU 公共许可证开发。它将扫描的文本图像转换回文本文件。Joerg Schulenburg 启动了该程序,现在领导着一个开发团队。GOCR 可以与不同的前端一起使用,这使得它很容易移植到不同的操作系统和架构。它可以打开许多不同的图像格式,而且其质量每天都在提高。
链接:
答案2
你有没有尝试过图像读取器,Tesseract 的 GUI 前端?
答案3
还有托泊芬(又名 SnapReader),包含 11 种语言的后处理拼写检查器:
SnapReader 可用于从几乎任何文档图像中制作您自己的可搜索笔记。或者,您可以将其用作创作工具,使用扫描仪或相机创建您自己的可编辑内容,并将结果保存为 HTML 或 PDF。SnapReader 还可以使用 Audrey 将文本转换为非常高质量的音频。因此,您不仅可以使用扫描仪或相机捕获文档,现在还可以使用便携式音乐播放器或智能手机“阅读”它们。