我正在尝试使用 Tesseract 对一本书进行 OCR,但我不想逐页输入,因为这本书有近 1000 页。我该如何实现这一点
我尝试了 tesseract *.tif *,它给出了这个 read_params_file:未找到参数:II*
答案1
为了避免覆盖每个新页面的输出文件,我这样做了:
for i in *tif; do b=`basename "$i" .tif`; tesseract "$i" "$b" hocr; done
它工作得很好。
(我找到了这个解决方案这里。
答案2
我试过了,它有效
for i in *.tif ; do tesseract $i outtext; done;
确保当您在终端时将目录更改为所有 tif 文件的位置。
答案3
您可以使用越南OCR,它使用 Tesseract 并支持批量/块状 OCR。
答案4
我想将卡纳达语(印度语言)转换为可搜索的 pdf
我对此进行了修改 for i in *tif; do b= basename "$i" .tif
; tesseract "$i" "$b" hocr; done
如下
对于 *tif 中的 i;执行 b= basename "$i" .tif
;tesseract -l kan“$i”“$b”pdf;完成
它工作得很好,整个文件夹从图像转换为可搜索的pdf Tnakyou