Abbyy 适用于 Ubuntu 13.04 的优秀阅读器类应用程序

Abbyy 适用于 Ubuntu 13.04 的优秀阅读器类应用程序

我有很多图片,我想做的是扫描这些图片,然后将其输出到 ms word 文件中,以便以后进行编辑。对于 Windows,我有 Abbyy fine reader。但我不想回到 Windows。请告诉我是否有任何应用程序可以为我做同样的事情。请在这方面帮助我。

答案1

您可以使用 Abbyy OCR。

ABBYY FineReader Engine CLI for Linux 是一款基于 ABBYY 先进光学字符识别 (OCR) 技术的即用型 CLI 工具。该工具可在 Linux 系统上自动执行 OCR 和文档转换。

欲了解更多信息或下载,请访问网站

来源:Ocr4Linux

答案2

首先,除了 Abbyy 之外,这里还有一些 OCR 工具,它们有 SDK,您可以在 Linux 上使用。但请注意,并非所有工具都支持 MS Word 输出:

  • Tesseract-仅文本输出
  • Ocrad-仅文本输出
  • GOCR-仅文本输出
  • CuneiForm - RTF 输出
  • OmniPage - Google Docs 和 PDF 输出

以下是一篇文章(2007 年的,但可能仍然具有相关性),对前三个引擎的准确性和速度进行了基准测试:http://www.mathstat.dal.ca/~selinger/ocr-test/

顺便说一句,包括 Abbyy 在内的所有引擎都最适合处理非结构化文本 - 换句话说,图像不遵循常规结构。如果您处理的“图像”具有标准布局,例如客户填写的表格(其中字段始终位于同一位置)、各种卡片(如名片、身份证)等,则有专门的解决方案可以检测和 OCR 特定文本字段,“清除”图像“噪音”,并以结构化方式输出文本(例如姓名 = John Smith,身份证号码 = 123456)。

如果您的图像是“模板”,并且您需要一个可以输出结构化文本的 OCR,那么实际上很少有 Linux 解决方案(据我所知)。以下是我熟悉的两种解决方案:

  • CSSN OCR(http://www.card-reader.com)。专门处理卡片型文件,例如身份证、驾驶执照、医疗卡、银行支票、信用卡等。使用 WINE 在 Linux 上运行。
  • ARH(http://www.arhungary.hu)。能够读取旅行证件、护照、签证和身份证。

HTH,达娜

相关内容