我有不同类型的法律账单发票。我想将它们数字化为 Excel 表格。由于它们的布局不同,而且数量很多,我找不到处理它们的方法。有人能为我提供切实可行的解决方案吗?
答案1
据我所知,没有好的、价格合理的解决方案 :(
您可以尝试使用 Nuance OmniPage 或 Abby FlexiCapture(有桌面版,也有价值 10 万美元的企业版)。前段时间,我比较了它们的 SDK/OCR 质量。差别不大,不过我觉得 Abbyy 稍好一点(Nuance 崩溃了几次,而 Abbyy 没有)。
OmniPage 和 FlexiCapture (FineReader) 都有桌面版,声称可以将 PDF 转换为可编辑的 excel 文件。通过试用免费试用版,我了解到它们确实可以创建可编辑的 excel 文件,但仅限于质量极高、干净的源。两者还提供批处理功能。
我还发现 scanstore.com 是一个很棒的资源:
http://www.scanstore.com/Scanning_Software/Forms_Processing/Invoice_Processing/
如果您正在寻找开源 - 最好的“引擎”是 tesseract。您需要围绕它构建整个表单捕获位。我对此进行了一些思考 - 您需要:
- 使用“条形码”或以其他方式注册发票类型
- 对于每种类型 - 找出发票的哪些部分是表格
- 裁剪相关区域 - 并将其发送到 tesserat/abbyy/nuance
- 获取可以解析成表的内容
- 应用语言建模(令人惊讶的是,Abbyy、Nuance 在这里表现很糟糕)
哦,顺便说一下,有很多“BPO”服务公司都有真人来做数据录入工作。这并不像你想象的那么贵。
答案2
这里有一些免费的 OCR 软件:CuneiForm、GOCR、Ocrad、OCRopus、Tesseract。但效果不太好。但你可以试试 FineReader、ExperVision、OmniPage,效果会更好。然而,根据我的经验,你不能依赖纯技术解决方案。如果你确实想将项目成本控制在合理的价格范围内。将 OCR 技术和人力资源结合起来是一个不错的选择。据我所知,Expervision 可以提供定制的 OCR 技术和 BPO 服务,你可以查看他们的网站。经验