适用于 Linux 的扫描到 PDF 软件？

Question

以下是我在今年早些时候研究这个问题时发现的一些内容。抱歉，由于我的评分有限，我无法发布多个超链接，因此您必须通过 Google 搜索链接。

扫描二维码

一个非常好的 GUI 系统，可以使用各种 OCR 引擎作为后端。这可能符合您的一键式解决方案（digitxp 已经提到过）。

Tesseract OCR 引擎

可与 gscan2pdf 一起使用。

http://www.linuxjournal.com/article/9676

章鱼属

我没有取得很大进展章鱼因为它没有经过大量训练就无法识别文本。它对书籍可能真的很好，但对我来说，对账单等东西就不太管用。YMMV。

楔形文字

我最成功的是楔形文字并且能够通过编写类似于以下工作流程的脚本命令来创建可搜索的 PDF：

# extract images from scans
# (not shown)

# convert to black-and-white
optimize2bw -n -i nuance-test.png  -o bw.bmp                               

# do the OCR process and generate an hOCR file
cuneiform -l eng -f hocr -o nuance-test.html bw.bmp

# reassemble the original image with the hOCR file to generate a new PDF
hocr2pdf -s -i nuance-test.png -o nuance-test.hocr.pdf < nuance-test.html

您还需要安装 exactimage 包。

用于 PDF OCR 的各种开源项目楔形文字和hocr2pdf以及：

手表OCR
档案管理员

让我知道你发现了什么！

Answer 1

以下是我在今年早些时候研究这个问题时发现的一些内容。抱歉，由于我的评分有限，我无法发布多个超链接，因此您必须通过 Google 搜索链接。

扫描二维码

一个非常好的 GUI 系统，可以使用各种 OCR 引擎作为后端。这可能符合您的一键式解决方案（digitxp 已经提到过）。

Tesseract OCR 引擎

可与 gscan2pdf 一起使用。

http://www.linuxjournal.com/article/9676

章鱼属

我没有取得很大进展章鱼因为它没有经过大量训练就无法识别文本。它对书籍可能真的很好，但对我来说，对账单等东西就不太管用。YMMV。

楔形文字

我最成功的是楔形文字并且能够通过编写类似于以下工作流程的脚本命令来创建可搜索的 PDF：

# extract images from scans
# (not shown)

# convert to black-and-white
optimize2bw -n -i nuance-test.png  -o bw.bmp                               

# do the OCR process and generate an hOCR file
cuneiform -l eng -f hocr -o nuance-test.html bw.bmp

# reassemble the original image with the hOCR file to generate a new PDF
hocr2pdf -s -i nuance-test.png -o nuance-test.hocr.pdf < nuance-test.html

您还需要安装 exactimage 包。

用于 PDF OCR 的各种开源项目楔形文字和hocr2pdf以及：

手表OCR
档案管理员

让我知道你发现了什么！

适用于 Linux 的扫描到 PDF 软件？

答案1

扫描二维码

Tesseract OCR 引擎

章鱼属

楔形文字

相关内容