Tesseract OCR

Tesseract OCR

我见过一些电子书/论文,表面上看是从纸质版扫描过来的,但令人惊奇的是,电子书/论文中的文字可以复制出来。我猜直接扫描的版本一定是经过某种光学字符识别软件处理的。

所以我想知道有哪些推荐的光学字符识别软件?特别是那些适用于 Ubuntu 或免费的软件?如果适用于 Windows 的软件更优秀,请也告诉我。

我对那些可以接受扫描的 PDF 文件作为输入并仍生成另一个与输入文件相同但其文本可复制的 PDF 文件作为输出的 OCR 特别感兴趣。

感谢致敬!

每个答案请限制一个软件

答案1

Tesseract OCR 安装 Tesseract OCR

最初的引擎是由 HP 和 IBM 在 80 年代末开发的,但事实证明它是我用过的最好的视觉识别软件之一。它最近对引擎进行了多次更新,并已成为市场上最全面的 OCR 工具之一。它比大多数其他 OCR 工具都好(文本匹配率在 90% 以上),可以轻松地将标准文档字体转换为文本。

以下是一个示例:

tesseract ScannedDocument.png out

将产生一个名为 out.txt 的文件

答案2

另一个可以做到这一点的项目是 gscan2pdf

sudo apt-get install gscan2pdf

该项目还可以使用 Tesseract,以及其他开源 OCR 工具。

答案3

我不知道 Ubuntu 上是否有 OCR,但 Windows 上有一个 OCR 具有你需要的功能。那就是ABBYY FineReader 这是页面但它不是免费的

答案4

似乎十足类计划确实或将会导出为 PDF,因此 Tesseract 必须以某种方式导出必要的信息才能知道在哪里找到了什么文本。

相关内容