Tesseract 3.03 最近发布了,我刚刚安装了它。不过,下载时没有提供英语数据(来自https://launchpad.net/ubuntu/+source/tesseract/3.03.03-1)。在 Tesseract 网站上,有一个“下载”链接,但您只能找到“Tesseract 3.02 的英语语言数据”。我在哪里可以找到 3.03 的语言数据?
答案1
正如其他人提到的,您可以将 3.02 的英语语言包用于 3.03。以下是说明:
从这里下载并解压:1
安装先决条件并解压缩
`sudo apt-fast install -y libicu-dev libpango1.0-dev libcairo2-dev` `tar xfv tesseract-ocr-3.02.eng.tar.gz`
将 Tesseract 的英语数据包解压到 tesseract-3.03 目录内的 tessdata 目录中。假设两者(英语语言数据和 tesseract 源 .tar.gz 文件)都在同一个文件夹中
tar zxvf tesseract-ocr-3.02.eng.tar.gz
mv tesseract-ocr/tessdata/。tesseract-3.03/tessdata/
4.回到tesseract的目录并完成安装
cd tesseract-3.03
./autogen.sh
./configure
make -j
sudo make install LANGS="eng"
sudo ldconfig
现在使用目录中的测试图像测试您的安装
tesseract phototest.tif ans -l eng
cat ans.txt
输出:
这是大量的 12 点文本,用于测试 ocr 代码并查看它是否适用于所有类型的文件格式。
敏捷的棕色狗跳过了懒惰的狐狸。敏捷的棕色狗跳过了懒惰的狐狸。敏捷的棕色狗跳过了懒惰的狐狸。敏捷的棕色狗跳过了懒惰的狐狸。
注意:有些行的格式有误……任何纠正这些格式的建议都很好
答案2
您可以在 3.03 RC 上使用 3.02 的语言数据。
另请注意,3.03 尚未正式发布。这是一个 RC 版本。