如何使用 tesseract 转换为多种语言的 PDF

2024-6-7 • tag-icon

我正在尝试在 tesseract 中对包含希腊语和英语文本的 pdf 文档进行 ocr 识别。

由于 tesseract 无法输入 pdf，我将文件转换为 tiff

tesseract file.tiff output -l eng+osd+ell

没有给出任何错误，但它在文本文档中，我需要它以 PDF 格式并带有文档图像

所以我使用：

tesseract file.tiff output pdf -l eng+osd+ell

但我收到以下错误：

read params file: Can't open l  
read params file: Can't open eng+osd+ell

Tesseract 只允许我转换英文版 PDF 并保留图像，但对于文本文档，它可以转换英文、osd 和希腊文，但现在我丢失了 pdf/tiff 中包含的图片。如何将其转换为多种语言的 PDF？

相关内容