我正在尝试在 Ubuntu 20.04.1 LTS 中训练 Tesseract。我已经下载了 tesseract 和所需的训练工具。
对于训练数据,我正在使用 jTessBoxEditor。我有.tiff 文件,但无法制作.box 文件。当我在终端中输入以下内容时:
tesseract --psm 6 --oem 3 Liberation_serif.font.exp0.tif Liberation_serif.font.exp0 makebox
我收到以下错误:
Please make sure the TESSDATA_PREFIX environment variable is set to your "tessdata" directory.
Failed loading language 'eng'
Tesseract couldn't load any languages!
Could not initialize tesseract.
我尝试从 git 下载 eng.traineddata 并将其粘贴到 tessdata。但我收到了相同的错误消息。然后我多次更改 TESSDATA_PREFIX 以使其指向 tessdata,但我再次收到相同的错误消息。我该如何解决这个问题?
编辑:我下载的 tesseract 可执行文件和 tesseract 源代码位于不同的位置。
答案1
我在两个位置下载了 tesseract。TESSDATA_PREFIX 指向的位置没有 eng.traineddata。我从 github 将其下载到该目录中,并cat >> .pam_environment
再次使用以使 TESSDATA_PREFIX 指向该位置。
我再次登录并且现在可以制作.box 文件了。