Tesseract OCR：不支持的图像类型

Question

我猜你正在关注Michael Lissner 的帖子向 Tesseract 添加自定义字体。

我尝试了同样的事情（convert命令），但得到的是损坏的 TIFF，无法用任何应用程序打开。

所以我选择了 GUI 替代方案。我在 Scribus 中编写了文本（因为它允许我增加字符之间的间距），然后直接从文件-出口-另存为图像菜单。我选择了 300 DPI 分辨率。

您还可以尝试以下方法：

GIMP 打开可以保存为 TIFF 的 PDF
Ghostscript：（gs -sDEVICE=tiffgray -r300x300 -dNOPAUSE -dBATCH -sOutputFile=<image_file> <input_pdf>如果是这种情况，它会转换所有页面）

您可能还会遇到哪些问题：

Linux：如果你安装了 Tesseract 的 repo 版本（至少在 Ubuntu 中），你将没有所需的可执行文件：unicharset_extractor并且mftraining（或者它们不在路径中，因为包应该包括他们）。

Answer 1

我猜你正在关注Michael Lissner 的帖子向 Tesseract 添加自定义字体。

我尝试了同样的事情（convert命令），但得到的是损坏的 TIFF，无法用任何应用程序打开。

所以我选择了 GUI 替代方案。我在 Scribus 中编写了文本（因为它允许我增加字符之间的间距），然后直接从文件-出口-另存为图像菜单。我选择了 300 DPI 分辨率。

您还可以尝试以下方法：

GIMP 打开可以保存为 TIFF 的 PDF
Ghostscript：（gs -sDEVICE=tiffgray -r300x300 -dNOPAUSE -dBATCH -sOutputFile=<image_file> <input_pdf>如果是这种情况，它会转换所有页面）

您可能还会遇到哪些问题：

Linux：如果你安装了 Tesseract 的 repo 版本（至少在 Ubuntu 中），你将没有所需的可执行文件：unicharset_extractor并且mftraining（或者它们不在路径中，因为包应该包括他们）。

相关内容