Tesseract OCR:不支持的图像类型

Tesseract OCR:不支持的图像类型

我使用终端上的以下命令将 PDF 转换为 TIF 文件

convert -density 300 -depth 4 lang.font-name.exp0.pdf lang.font-name.exp0.tif

convert lang.font-name.exp0.tif -colorspace rgb -type truecolor lang.font-name.exp0.tif

然后我尝试运行makebox命令,

tesseract lang.font-name.exp0.tif lang.font-name.exp0 batch.nochop makebox

产生了以下错误:

Tesseract Open Source OCR Engine v3.02.02 with Leptonica Error in findTiffCompression: function not present Error in pixReadStreamTiff: function not present Error in pixReadStream: tiff: no pix returned Error in pixRead: pix not read Unsupported image type.

假设它与有关libtiff,运行命令tesseract -v并发现(或猜测)它丢失了

tesseract 3.02.02 leptonica-1.70 libjpeg 8d : libpng 1.6.10 : zlib 1.2.5

即使我卸载并重新安装 lib tiff,也会产生同样的事情。不确定我这里遗漏了什么。请指教!

brew rm -f libtiff brew cleanup brew missing brew doctor find /usr/local -user root brew install libtiff

命令输出brew info leptonica 这里

编辑#1

使用此 tiff 文件生成了此文件,GhostScript当我尝试运行makebox命令时,它返回相同的错误。也许我还遗漏了其他内容?我将字体大小设置为 50+,这样可以吗?

https://dl.dropboxusercontent.com/u/97646145/Issue/Tiff_File.zip(约4MB)

编辑#2

我使用 创建了一个页面 tif GhostScript,但它不起作用???

https://dl.dropboxusercontent.com/u/97646145/Issue/Onepage_TIFF.zip(约60千字节)

答案1

我猜你正在关注Michael Lissner 的帖子向 Tesseract 添加自定义字体。

我尝试了同样的事情(convert命令),但得到的是损坏的 TIFF,无法用任何应用程序打开。

所以我选择了 GUI 替代方案。我在 Scribus 中编写了文本(因为它允许我增加字符之间的间距),然后直接从文件-出口-另存为图像菜单。我选择了 300 DPI 分辨率。

您还可以尝试以下方法:

  • GIMP 打开可以保存为 TIFF 的 PDF
  • Ghostscript:(gs -sDEVICE=tiffgray -r300x300 -dNOPAUSE -dBATCH -sOutputFile=<image_file> <input_pdf>如果是这种情况,它会转换所有页面)

您可能还会遇到哪些问题:

  • Linux:如果你安装了 Tesseract 的 repo 版本(至少在 Ubuntu 中),你将没有所需的可执行文件:unicharset_extractor并且mftraining(或者它们不在路径中,因为包应该包括他们)。

相关内容