我不知道这里是不是问这个问题的合适地方,但是......
我需要一个扫描仪(进纸扫描仪),它根据被扫描纸张上的条形码、数字或某些标识符,创建一个基于该标识符命名的 PDF 文件。
例如:如果我扫描的页面左上角有数字 12345,则会创建一个名为 12345.pdf 的 PDF 文件。
如有任何建议我将不胜感激!
答案1
如果您正在寻找能够使用条形码进行批次分离并根据条形码和分区 OCR 重命名的文档扫描仪,您可以尝试使用富士通扫描仪及其软件 scan all pro 来实现。另一种选择是使用柯达扫描仪和 kodak capture,但该软件单独出售,而且价格相当昂贵。如果您有基于 ISIS 的扫描仪,您可以尝试使用 Quick Scan Pro 软件来实现。我从 3 年前开始使用 scan all pro 来数字化数百万页,效果很好。
答案2
你看过类似的东西吗Readiris或者简单OCR或者其他 光学字符识别 (OCR) 备择方案看看它们是否具有您想要的功能?
我已经使用 Microsoft Access VBA 编写了一个文档扫描仪,它可以从文档进纸扫描仪中抓取页面并输出 pdf 文件,我目前正在用 Python 重写它,但我还没有花心思去弄清楚如何在其中构建某种 OCR,因为 Python 中似乎没有太多 OCR 选项。 条形码读取器看起来像是一个选项,因为通常你可以得到一个只提供带有条形码内容的串行数据流的选项,然后可以将其用作文件的名称......
这看起来像是应该以付费 OCR 解决方案的方式提供的东西,我认为您可能需要评估哪些软件包支持批量文档扫描和基于规则的文件保存。
答案3
在 Linux 中,当页面顶部有数字时,此方法有效。您可以调整扫描参数和 pdf 转换参数来获得所需的结果(压缩等)。
#!/bin/bash
# Requires scanimage, tesseract and ImageMagick convert
# Scan the image to temp file. Change command for your scanner
scanimage -d hpaio:/usb/Deskjet_F4100_series?serial=CN7CH4T29D04TJ \
--mode Lineart --resolution 300 --compression None --format=tiff \
> out.tif
# OCR to tmp.txt file
tesseract out.tif tmp
# Extract first line --contains number (thanks Serverfault 66587)
read -r NUMBER < tmp.txt
# Convert image to pdf with the desired name
convert out.tif $NUMBER.pdf
# Clean up
rm out.tif tmp.txt
如果您更喜欢条形码,那么您可以尝试使用 gocr 处理图像。它将读取某些类型的条形码。提取结果数字有点棘手,但可以使用 sed 过滤器来完成。
答案4
抱歉回答了 3 年前的帖子,但我也在我工作的地方寻找类似的东西。经过一番研究,我偶然发现了批量扫描至 PDF这正是您描述中所需要的。但是,他们使用二维码而不是常规条形码。与我见过的其他产品相比,它们超级便宜。希望这对可能需要类似功能的其他用户有所帮助。