如何从PDF中提取hocr文件？

2024-5-14 • tag-icon

我正在通过以下方式创建 OCR 编辑的 PDF tesseract：

tesseract input.tif out pdf

但我还需要hocr和txt文件。最新版本tesseract 已经解决了这个问题但因为它需要同时编译leptonica和tesseract，所以我对此不太满意。

我可以用来pdftotext提取文本文件，但我似乎找不到hocr从 PDF 中提取的方法。

您只需运行以下命令即可同时创建 pdf 和 hocr。

tesseract input.tif out pdf hocr

相关内容