我使用 apt-get 安装 Tesseract 但它并没有真正起作用。也许我可以在某个地方下载二进制文件,放入目录中并以这种方式使用?
我的 Tesseract 现在出了什么问题:
tesseract --help
tesseract:Error:Usage:tesseract imagename outputbase [-l lang] [configfile [[+|-]varfile]...]
和
tesseract test.tif out2.txt -l pol
Unable to load unicharset file /usr/share/tesseract-ocr/tessdata/pol.unicharset
我已将波兰语下载并解压到上面的目录中,但唯一的 pol.* 是 pol.traindeddate。
答案1
在您的情况下,您还应该使用以下命令安装波兰语支持apt
:
sudo apt install tesseract-ocr-polsudo apt search tesseract-ocr-*
对于其他语言,请列出语言包并选择与您的语言匹配的语言:
sudo apt search tesseract-ocr-*
罗马尼亚语示例:
sudo apt search tesseract-ocr-* | grep "Romanian" -b1
会给
7900-tesseract-ocr-ron/xenial,xenial 3.04.00-2 all
7946: tesseract-ocr language files for Romanian
7990-
进而
sudo apt install tesseract-ocr-ron