如何使用 tesseract 转换为多种语言的 PDF

如何使用 tesseract 转换为多种语言的 PDF

我正在尝试在 tesseract 中对包含希腊语和英语文本的 pdf 文档进行 ocr 识别。

由于 tesseract 无法输入 pdf,我将文件转换为 tiff

tesseract file.tiff output -l eng+osd+ell

没有给出任何错误,但它在文本文档中,我需要它以 PDF 格式并带有文档图像

所以我使用:

tesseract file.tiff output pdf -l eng+osd+ell

但我收到以下错误:

read params file: Can't open l  
read params file: Can't open eng+osd+ell

Tesseract 只允许我转换英文版 PDF 并保留图像,但对于文本文档,它可以转换英文、osd 和希腊文,但现在我丢失了 pdf/tiff 中包含的图片。如何将其转换为多种语言的 PDF?

相关内容