我正在尝试在 OSX 10.6 上安装 Tesseract OCR...
我已经安装了 leptonic(通过下载源码并安装./configure; make; sudo make install
)看似没有任何问题 - 但我不知道如何检查。
我还安装了 Tesseract OCR 3(来自Google 代码)似乎./runautoconf; ./configure; make; sudo make install
也没有问题 - 但我还是不知道如何检查。
当我运行时tesseract input.jpg .
出现错误...
bash-3.2$ tesseract ~/Desktop/DCIM/101_FUJI/DSCF1043.JPG .
Tesseract Open Source OCR Engine with Leptonica
Error in pixReadStreamJpeg: function not present
Error in pixReadStream: jpeg: no pix returned
Error in pixRead: pix not read
Error in fopenReadStream: file not found
Error in pixRead: image file not found
Image file ######
Exif cannot be read!
如果我使用 tiff 文件作为输入,也会出现类似的错误。
我想我需要一些库 - Ubuntu 的说明说安装 libjpeg12-dev 等等...
有人知道如何在 OSX 上安装 tesseract 的详细信息吗?
答案1
安装 macports:参见http://www.macports.org/了解下载和安装说明。
更新端口树:
sudo port selfupdate
安装 tesseract:
sudo port install tesseract
tesseract 端口似乎没有支持 jpeg 的变体,因此您需要安装图形文件转换器和图像调整(亮度、对比度和清晰度)包:
sudo port install imagemagick
将 jpeg 转换为 tiff 格式,然后使用 tesseract 对其执行 OCR:convert input.jpg input.tiff ; tesseract input.tiff ocr-text-ouput -l eng ; rm input.tiff
生成的文本可以在文件 ocr-text-ouput.txt 中找到。
ps 您可以使用如下转换选项稍微调整图像以获得更好的 OCR 体验:
convert -sharpen 1 -brightness-contrast 3X30 input.jpg input.tiff
答案2
我在 osx 10.7 上使用 homebrew,只需运行以下两个命令即可:
brew install leptonica
brew install tesseract
这安装了 leptonica 1.68 和 tesseract 3.01 及其依赖项
答案3
为我提供一条命令解决方案:
sudo brew install tesseract
这将安装 tesseract 和所有依赖项。sudo 对于某些目的是必要的,比如 jpeg 数据包链接。