如何从PDF中提取hocr文件?

如何从PDF中提取hocr文件?

我正在通过以下方式创建 OCR 编辑的 PDF tesseract

tesseract input.tif out pdf

但我还需要hocrtxt文件。最新版本tesseract 已经解决了这个问题但因为它需要同时编译leptonicatesseract,所以我对此不太满意。

我可以用来pdftotext提取文本文件,但我似乎找不到hocr从 PDF 中提取的方法。

答案1

您只需运行以下命令即可同时创建 pdf 和 hocr。

tesseract input.tif out pdf hocr 

相关内容