Tesseract OCR

Question 1

最初的引擎是由 HP 和 IBM 在 80 年代末开发的，但事实证明它是我用过的最好的视觉识别软件之一。它最近对引擎进行了多次更新，并已成为市场上最全面的 OCR 工具之一。它比大多数其他 OCR 工具都好（文本匹配率在 90% 以上），可以轻松地将标准文档字体转换为文本。

以下是一个示例：

tesseract ScannedDocument.png out

将产生一个名为 out.txt 的文件

Answer

最初的引擎是由 HP 和 IBM 在 80 年代末开发的，但事实证明它是我用过的最好的视觉识别软件之一。它最近对引擎进行了多次更新，并已成为市场上最全面的 OCR 工具之一。它比大多数其他 OCR 工具都好（文本匹配率在 90% 以上），可以轻松地将标准文档字体转换为文本。

以下是一个示例：

tesseract ScannedDocument.png out

将产生一个名为 out.txt 的文件

Question 2

另一个可以做到这一点的项目是 gscan2pdf

sudo apt-get install gscan2pdf

该项目还可以使用 Tesseract，以及其他开源 OCR 工具。

Answer

另一个可以做到这一点的项目是 gscan2pdf

sudo apt-get install gscan2pdf

该项目还可以使用 Tesseract，以及其他开源 OCR 工具。

Question 3

我不知道 Ubuntu 上是否有 OCR，但 Windows 上有一个 OCR 具有你需要的功能。那就是ABBYY FineReader 这是页面但它不是免费的

Answer

我不知道 Ubuntu 上是否有 OCR，但 Windows 上有一个 OCR 具有你需要的功能。那就是ABBYY FineReader 这是页面但它不是免费的

Question 4

似乎十足类计划确实或将会导出为 PDF，因此 Tesseract 必须以某种方式导出必要的信息才能知道在哪里找到了什么文本。

Answer

似乎十足类计划确实或将会导出为 PDF，因此 Tesseract 必须以某种方式导出必要的信息才能知道在哪里找到了什么文本。

相关内容