合法帐单发票的 OCR 解决方案

合法帐单发票的 OCR 解决方案

我有不同类型的法律账单发票。我想将它们数字化为 Excel 表格。由于它们的布局不同,而且数量很多,我找不到处理它们的方法。有人能为我提供切实可行的解决方案吗?

答案1

据我所知,没有好的、价格合理的解决方案 :(

您可以尝试使用 Nuance OmniPage 或 Abby FlexiCapture(有桌面版,也有价值 10 万美元的企业版)。前段时间,我比较了它们的 SDK/OCR 质量。差别不大,不过我觉得 Abbyy 稍好一点(Nuance 崩溃了几次,而 Abbyy 没有)。

OmniPage 和 FlexiCapture (FineReader) 都有桌面版,声称可以将 PDF 转换为可编辑的 excel 文件。通过试用免费试用版,我了解到它们确实可以创建可编辑的 excel 文件,但仅限于质量极高、干净的源。两者还提供批处理功能。

我还发现 scanstore.com 是一个很棒的资源:

http://www.scanstore.com/Scanning_Software/Forms_Processing/Invoice_Processing/

如果您正在寻找开源 - 最好的“引擎”是 tesseract。您需要围绕它构建整个表单捕获位。我对此进行了一些思考 - 您需要:

  1. 使用“条形码”或以其他方式注册发票类型
  2. 对于每种类型 - 找出发票的哪些部分是表格
  3. 裁剪相关区域 - 并将其发送到 tesserat/abbyy/nuance
  4. 获取可以解析成表的内容
  5. 应用语言建模(令人惊讶的是,Abbyy、Nuance 在这里表现很糟糕)

哦,顺便说一下,有很多“BPO”服务公司都有真人来做数据录入工作。这并不像你想象的那么贵。

答案2

这里有一些免费的 OCR 软件:CuneiForm、GOCR、Ocrad、OCRopus、Tesseract。但效果不太好。但你可以试试 FineReader、ExperVision、OmniPage,效果会更好。然而,根据我的经验,你不能依赖纯技术解决方案。如果你确实想将项目成本控制在合理的价格范围内。将 OCR 技术和人力资源结合起来是一个不错的选择。据我所知,Expervision 可以提供定制的 OCR 技术和 BPO 服务,你可以查看他们的网站。经验

相关内容