如何使用 hocr2pdf 制作多页三明治 pdf?

如何使用 hocr2pdf 制作多页三明治 pdf?

我使用 tesseract 从多页 tif 开始生成与 hocr2pdf 一起使用的特殊 html。

我尝试使用 hoc2pdf 制作“三明治 pdf”(图像+隐藏文本层)。

Hocr2pdf 生成一份所有页面叠加的单页 pdf。

有没有办法解决这个问题或者有替代解决方案?

答案1

我找到了解决这个问题的方法。Hocr2pdf 在生成多页 pdf 时出现问题,因此我生成了单页 tif,运行了 tesseract-ocr,运行了 hocr2pdf,然后将结果与以下脚本合并:

for f in ./*.tif; do
   tesseract "$f" "$f" -l fra hocr
   hocr2pdf -i "$f" -s -o "$f.pdf" < "$f.html"
done
pdftk *.tif.pdf cat output "output.pdf" && rm *.tif.pdf && rm *.tif.html

相关内容