批量四维立方体转换

批量四维立方体转换

我正在尝试使用 Tesseract 对一本书进行 OCR,但我不想逐页输入,因为这本书有近 1000 页。我该如何实现这一点

我尝试了 tesseract *.tif *,它给出了这个 read_params_file:未找到参数:II*

答案1

为了避免覆盖每个新页面的输出文件,我这样做了:

for i in *tif; do b=`basename "$i" .tif`; tesseract "$i" "$b" hocr; done 

它工作得很好。

(我找到了这个解决方案这里

答案2

我试过了,它有效

for i in *.tif ; do tesseract $i outtext;  done;

确保当您在终端时将目录更改为所有 tif 文件的位置。

答案3

您可以使用越南OCR,它使用 Tesseract 并支持批量/块状 OCR。

答案4

我想将卡纳达语(印度语言)转换为可搜索的 pdf

我对此进行了修改 for i in *tif; do b= basename "$i" .tif; tesseract "$i" "$b" hocr; done

如下

对于 *tif 中的 i;执行 b= basename "$i" .tif;tesseract -l kan“$i”“$b”pdf;完成

它工作得很好,整个文件夹从图像转换为可搜索的pdf Tnakyou

相关内容