我有一个工作流程,即使用富士通 ScanSnap S500文档扫描仪。我不太喜欢捆绑的软件,但它的使用非常简单:将一叠纸放在最上面,按下绿色按钮,即可输出可搜索的 PDF。
现在,我想在 Linux(Ubuntu 10.10)上做类似的事情。扫描仪开箱即用。
我已经查看gscan2pdf
过XSane
:
XSane
看起来很强大,但并不适合作为工作流程解决方案;gscan2pdf
更接近“按下按钮,获取 PDF”的理想,但仍然没有 100% 实现。
您还能推荐其他软件吗(免费或其他)?
答案1
以下是我在今年早些时候研究这个问题时发现的一些内容。抱歉,由于我的评分有限,我无法发布多个超链接,因此您必须通过 Google 搜索链接。
扫描二维码
一个非常好的 GUI 系统,可以使用各种 OCR 引擎作为后端。这可能符合您的一键式解决方案(digitxp 已经提到过)。
Tesseract OCR 引擎
可与 gscan2pdf 一起使用。
章鱼属
我没有取得很大进展章鱼因为它没有经过大量训练就无法识别文本。它对书籍可能真的很好,但对我来说,对账单等东西就不太管用。YMMV。
楔形文字
我最成功的是楔形文字并且能够通过编写类似于以下工作流程的脚本命令来创建可搜索的 PDF:
# extract images from scans
# (not shown)
# convert to black-and-white
optimize2bw -n -i nuance-test.png -o bw.bmp
# do the OCR process and generate an hOCR file
cuneiform -l eng -f hocr -o nuance-test.html bw.bmp
# reassemble the original image with the hOCR file to generate a new PDF
hocr2pdf -s -i nuance-test.png -o nuance-test.hocr.pdf < nuance-test.html
您还需要安装 exactimage 包。
用于 PDF OCR 的各种开源项目楔形文字和hocr2pdf以及:
- 手表OCR
- 档案管理员
让我知道你发现了什么!