我正在尝试在 tesseract 中对包含希腊语和英语文本的 pdf 文档进行 ocr 识别。
由于 tesseract 无法输入 pdf,我将文件转换为 tiff
tesseract file.tiff output -l eng+osd+ell
没有给出任何错误,但它在文本文档中,我需要它以 PDF 格式并带有文档图像
所以我使用:
tesseract file.tiff output pdf -l eng+osd+ell
但我收到以下错误:
read params file: Can't open l
read params file: Can't open eng+osd+ell
Tesseract 只允许我转换英文版 PDF 并保留图像,但对于文本文档,它可以转换英文、osd 和希腊文,但现在我丢失了 pdf/tiff 中包含的图片。如何将其转换为多种语言的 PDF?