我使用终端上的以下命令将 PDF 转换为 TIF 文件
convert -density 300 -depth 4 lang.font-name.exp0.pdf lang.font-name.exp0.tif
convert lang.font-name.exp0.tif -colorspace rgb -type truecolor lang.font-name.exp0.tif
然后我尝试运行makebox
命令,
tesseract lang.font-name.exp0.tif lang.font-name.exp0 batch.nochop makebox
产生了以下错误:
Tesseract Open Source OCR Engine v3.02.02 with Leptonica Error in findTiffCompression: function not present Error in pixReadStreamTiff: function not present Error in pixReadStream: tiff: no pix returned Error in pixRead: pix not read Unsupported image type.
假设它与有关libtiff
,运行命令tesseract -v
并发现(或猜测)它丢失了
tesseract 3.02.02 leptonica-1.70 libjpeg 8d : libpng 1.6.10 : zlib 1.2.5
即使我卸载并重新安装 lib tiff,也会产生同样的事情。不确定我这里遗漏了什么。请指教!
brew rm -f libtiff brew cleanup brew missing brew doctor find /usr/local -user root brew install libtiff
命令输出brew info leptonica
编辑#1
使用此 tiff 文件生成了此文件,GhostScript
当我尝试运行makebox
命令时,它返回相同的错误。也许我还遗漏了其他内容?我将字体大小设置为 50+,这样可以吗?
https://dl.dropboxusercontent.com/u/97646145/Issue/Tiff_File.zip(约4MB)
编辑#2
我使用 创建了一个页面 tif GhostScript
,但它不起作用???
https://dl.dropboxusercontent.com/u/97646145/Issue/Onepage_TIFF.zip(约60千字节)
答案1
我猜你正在关注Michael Lissner 的帖子向 Tesseract 添加自定义字体。
我尝试了同样的事情(convert
命令),但得到的是损坏的 TIFF,无法用任何应用程序打开。
所以我选择了 GUI 替代方案。我在 Scribus 中编写了文本(因为它允许我增加字符之间的间距),然后直接从文件-出口-另存为图像菜单。我选择了 300 DPI 分辨率。
您还可以尝试以下方法:
- GIMP 打开可以保存为 TIFF 的 PDF
- Ghostscript:(
gs -sDEVICE=tiffgray -r300x300 -dNOPAUSE -dBATCH -sOutputFile=<image_file> <input_pdf>
如果是这种情况,它会转换所有页面)
您可能还会遇到哪些问题:
- Linux:如果你安装了 Tesseract 的 repo 版本(至少在 Ubuntu 中),你将没有所需的可执行文件:
unicharset_extractor
并且mftraining
(或者它们不在路径中,因为包应该包括他们)。