我需要一个基于 Linux 的服务器,可以将其设置为接收图像并将其转换为文本,然后插入到数据库中。这是否可行,尤其是通过 API 允许组织在需要时与服务进行交互?
答案1
Teseract 似乎是最好的。 http://code.google.com/p/tesseract-ocr/
评论似乎说它是唯一一款比重新输入内容更好的软件。 http://www.linux.com/archive/feature/138511 http://www.linux.com/archive/feed/57222
难道人们都不用谷歌搜索钱吗?我用“linux ocr”作为搜索词,花了 5 分钟读出了结果。
答案2
我有一个项目需要 OCR。您可以使用 GOCR 来完成 OCR 部分。要转换为 pbm 图像格式,您可以使用 djpeg。如果您需要将其与 Web 集成,您可以从 PHP 调用 conversion/ocr,也可以从这里调用来实现数据库保存。
答案3
我会设置一个消息队列并向其提交任务进行处理。您真正需要做的就是将文件作为图像上传到共享存储平台(可能是 GlusterFS 或类似平台),然后将文件名和路径推送到消息队列进行处理。然后您需要做的就是设置一个进程来监听队列,并在其上运行 gocr,将输出数据推送到您的数据库中。
理论上很简单。;)
答案4
你看过手表OCR? 它是一个免费的开源 OCR 服务器,可以将监视的文件夹或网络共享中的纯图像 PDF 转换为可搜索文本的 PDF。