Tesseract 3.03 英文语言数据

Tesseract 3.03 英文语言数据

Tesseract 3.03 最近发布了,我刚刚安装了它。不过,下载时没有提供英语数据(来自https://launchpad.net/ubuntu/+source/tesseract/3.03.03-1)。在 Tesseract 网站上,有一个“下载”链接,但您只能找到“Tesseract 3.02 的英语语言数据”。我在哪里可以找到 3.03 的语言数据?

答案1

正如其他人提到的,您可以将 3.02 的英语语言包用于 3.03。以下是说明:

  1. 从这里下载并解压:1

  2. 安装先决条件并解压缩

    `sudo apt-fast install -y libicu-dev libpango1.0-dev libcairo2-dev`
    `tar xfv tesseract-ocr-3.02.eng.tar.gz`
    
  3. 将 Tesseract 的英语数据包解压到 tesseract-3.03 目录内的 tessdata 目录中。假设两者(英语语言数据和 tesseract 源 .tar.gz 文件)都在同一个文件夹中

    tar zxvf tesseract-ocr-3.02.eng.tar.gz

mv tesseract-ocr/tessdata/tesseract-3.03/tessdata/

4.回到tesseract的目录并完成安装

cd tesseract-3.03

./autogen.sh

./configure

make -j

sudo make install LANGS="eng"

sudo ldconfig

现在使用目录中的测试图像测试您的安装

tesseract phototest.tif  ans -l eng
cat ans.txt

输出:

这是大量的 12 点文本,用于测试 ocr 代码并查看它是否适用于所有类型的文件格式。

敏捷的棕色狗跳过了懒惰的狐狸。敏捷的棕色狗跳过了懒惰的狐狸。敏捷的棕色狗跳过了懒惰的狐狸。敏捷的棕色狗跳过了懒惰的狐狸。

注意:有些行的格式有误……任何纠正这些格式的建议都很好

答案2

您可以在 3.03 RC 上使用 3.02 的语言数据。

另请注意,3.03 尚未正式发布。这是一个 RC 版本。

相关内容