我相信我已经成功安装了 OCRopus,奇怪的是我在任何地方都找不到任何使用说明,我已经找了大约一个小时,也许我疯了......
如何使用OCRopus?
我希望它将 PNG 文件 OCR 成 HTML 文件并保存布局。
答案1
这链接可能会对你有帮助。
摘抄:
转到适当命名的书页扫描图像(tiff 或 png)的目录。输入 ls 时,您应该会看到按顺序排列的页面列表!然后,尝试:
ocropus book2pages 出图*
这将整理页面以进行 OCR。接下来,让我们制作页面对象,最终制作书籍:
ocropus pages2lines 输出
ocropus lines2fsts 输出/
ocropus fsts2text 输出/
ocropus buildhtml out/ > book.html
这应该会为您创建一个漂亮的书籍 html 文件,采用 hOCR 格式。
另外,还有许多关于如何使用 ocropus 的教程。