我有一份纸质文件。还有更多页面,其中包含一个包含 3 列(当前编号、姓名和成绩)的表格。
我扫描了它并得到了 16 个 jpeg 文档。每个 jpeg 都是一个扫描页面。
现在,我需要一个 OCR 将每个 jpeg 转换为文本,以便将该表插入 excel 文档中。
我使用 LibreOffice 和 Ubuntu 12.04。
答案1
这扫描和 OCRUbuntu Apps 页面上向我们展示了几种替代方案,我建议你使用其中的XSane 图像扫描程序或者简单扫描(通常预装在 12.04 中,也可能是更早的版本)和/或扫描二维码,扫描您的文件。
我最喜欢的是扫描二维码,它允许您在同一个 GUI 中顺利地执行扫描/OCR 过程。
请注意,我正在尝试对屏幕截图运行 OCR。
您只需扫描或导入文档/图像,然后转到“工具”菜单,选择 OCR 选项,系统将要求您提供 OCR 引擎,只需选择为您提供最佳结果的引擎,然后单击“开始 OCR”即可。
您会在同名选项卡中找到 OCR 输出,如下面的屏幕截图所示。
请注意,即使图像质量很好,OCR 也可能无法识别某些字符,这可能会导致拼写错误或出现埃及象形文字。对大量文档进行 OCR 的过程可能会延迟一段时间。
以下是一个全面视频的链接,其中解释了 GScan2PDF 中的扫描和 OCR 过程:http://www.youtube.com/watch?v=UjjogfWfWsQ
祝你好运!
答案2
回答这个问题有点晚了。
但是对于其他来到此页面寻找 LibreOffice 的 OCR 解决方案的人来说,我最近开发了 LibreOCR,一个用于 LibreOffice 的 OCR 插件。
这是印度语OCR项目。
现在可以从以下位置找到该扩展LibreOffice 扩展网站