我有很多图片,我想做的是扫描这些图片,然后将其输出到 ms word 文件中,以便以后进行编辑。对于 Windows,我有 Abbyy fine reader。但我不想回到 Windows。请告诉我是否有任何应用程序可以为我做同样的事情。请在这方面帮助我。
答案1
答案2
首先,除了 Abbyy 之外,这里还有一些 OCR 工具,它们有 SDK,您可以在 Linux 上使用。但请注意,并非所有工具都支持 MS Word 输出:
- Tesseract-仅文本输出
- Ocrad-仅文本输出
- GOCR-仅文本输出
- CuneiForm - RTF 输出
- OmniPage - Google Docs 和 PDF 输出
以下是一篇文章(2007 年的,但可能仍然具有相关性),对前三个引擎的准确性和速度进行了基准测试:http://www.mathstat.dal.ca/~selinger/ocr-test/
顺便说一句,包括 Abbyy 在内的所有引擎都最适合处理非结构化文本 - 换句话说,图像不遵循常规结构。如果您处理的“图像”具有标准布局,例如客户填写的表格(其中字段始终位于同一位置)、各种卡片(如名片、身份证)等,则有专门的解决方案可以检测和 OCR 特定文本字段,“清除”图像“噪音”,并以结构化方式输出文本(例如姓名 = John Smith,身份证号码 = 123456)。
如果您的图像是“模板”,并且您需要一个可以输出结构化文本的 OCR,那么实际上很少有 Linux 解决方案(据我所知)。以下是我熟悉的两种解决方案:
- CSSN OCR(http://www.card-reader.com)。专门处理卡片型文件,例如身份证、驾驶执照、医疗卡、银行支票、信用卡等。使用 WINE 在 Linux 上运行。
- ARH(http://www.arhungary.hu)。能够读取旅行证件、护照、签证和身份证。
HTH,达娜