LibreOffice 的光学字符识别

LibreOffice 的光学字符识别

我有一份纸质文件。还有更多页面,其中包含一个包含 3 列(当前编号、姓名和成绩)的表格。

我扫描了它并得到了 16 个 jpeg 文档。每个 jpeg 都是一个扫描页面。

现在,我需要一个 OCR 将每个 jpeg 转换为文本,以便将该表插入 excel 文档中。

我使用 LibreOffice 和 Ubuntu 12.04。

答案1

扫描和 OCRUbuntu Apps 页面上向我们展示了几种替代方案,我建议你使用其中的XSane 图像扫描程序或者简单扫描(通常预装在 12.04 中,也可能是更早的版本)和/或扫描二维码,扫描您的文件。

我最喜欢的是扫描二维码,它允许您在同一个 GUI 中顺利地执行扫描/OCR 过程。

在此处输入图片描述

请注意,我正在尝试对屏幕截图运行 OCR。

您只需扫描或导入文档/图像,然后转到“工具”菜单,选择 OCR 选项,系统将要求您提供 OCR 引擎,只需选择为您提供最佳结果的引擎,然后单击“开始 OCR”即可。

在此处输入图片描述

您会在同名选项卡中找到 OCR 输出,如下面的屏幕截图所示。

在此处输入图片描述

请注意,即使图像质量很好,OCR 也可能无法识别某些字符,这可能会导致拼写错误或出现埃及象形文字。对大量文档进行 OCR 的过程可能会延迟一段时间。

以下是一个全面视频的链接,其中解释了 GScan2PDF 中的扫描和 OCR 过程:http://www.youtube.com/watch?v=UjjogfWfWsQ

祝你好运!

答案2

回答这个问题有点晚了。

但是对于其他来到此页面寻找 LibreOffice 的 OCR 解决方案的人来说,我最近开发了 LibreOCR,一个用于 LibreOffice 的 OCR 插件。

这是印度语OCR项目。

现在可以从以下位置找到该扩展LibreOffice 扩展网站

相关内容