在 OSX 上安装 tesseract ocr 3

在 OSX 上安装 tesseract ocr 3

我正在尝试在 OSX 10.6 上安装 Tesseract OCR...

我已经安装了 leptonic(通过下载源码并安装./configure; make; sudo make install)看似没有任何问题 - 但我不知道如何检查。

我还安装了 Tesseract OCR 3(来自Google 代码)似乎./runautoconf; ./configure; make; sudo make install也没有问题 - 但我还是不知道如何检查。

当我运行时tesseract input.jpg .出现错误...

 bash-3.2$ tesseract ~/Desktop/DCIM/101_FUJI/DSCF1043.JPG . 
 Tesseract Open Source OCR Engine with Leptonica
 Error in pixReadStreamJpeg: function not present
 Error in pixReadStream: jpeg: no pix returned
 Error in pixRead: pix not read 
 Error in fopenReadStream: file not found 
 Error in pixRead: image file not found
 Image file ######
 Exif cannot be read! 

如果我使用 tiff 文件作为输入,也会出现类似的错误。

我想我需要一些库 - Ubuntu 的说明说安装 libjpeg12-dev 等等...

有人知道如何在 OSX 上安装 tesseract 的详细信息吗?

答案1

安装 macports:参见http://www.macports.org/了解下载和安装说明。

更新端口树: sudo port selfupdate

安装 tesseract: sudo port install tesseract

tesseract 端口似乎没有支持 jpeg 的变体,因此您需要安装图形文件转换器和图像调整(亮度、对比度和清晰度)包: sudo port install imagemagick

将 jpeg 转换为 tiff 格式,然后使用 tesseract 对其执行 OCR:convert input.jpg input.tiff ; tesseract input.tiff ocr-text-ouput -l eng ; rm input.tiff

生成的文本可以在文件 ocr-text-ouput.txt 中找到。

ps 您可以使用如下转换选项稍微调整图像以获得更好的 OCR 体验: convert -sharpen 1 -brightness-contrast 3X30 input.jpg input.tiff

答案2

我在 osx 10.7 上使用 homebrew,只需运行以下两个命令即可:

brew install leptonica
brew install tesseract

这安装了 leptonica 1.68 和 tesseract 3.01 及其依赖项

答案3

为我提供一条命令解决方案:

sudo brew install tesseract

这将安装 tesseract 和所有依赖项。sudo 对于某些目的是必要的,比如 jpeg 数据包链接。

相关内容