我正在通过以下方式创建 OCR 编辑的 PDF tesseract
:
tesseract input.tif out pdf
但我还需要hocr
和txt
文件。最新版本tesseract
已经解决了这个问题但因为它需要同时编译leptonica
和tesseract
,所以我对此不太满意。
我可以用来pdftotext
提取文本文件,但我似乎找不到hocr
从 PDF 中提取的方法。
答案1
您只需运行以下命令即可同时创建 pdf 和 hocr。
tesseract input.tif out pdf hocr