如何将扫描的 PDF 转换为带文本的 PDF

如何将扫描的 PDF 转换为带文本的 PDF

我把大约80页扫描成灰度pdf(图像格式)。文件最终大小约为70MB,非常庞大。

现在我正在寻找一种方法将基于灰度图像的 PDF 文件转换为简单的基于黑白文本的 PDF 文件。

我尝试了很多次,gs但都没有成功(只恢复了百分之几)。如果有专家知道的话,请告诉我。

答案1

gImageReader 是一个简单的 GTK+ 前端tesseract-ocr

sudo apt-get install gimagereader tesseract-ocr

抱歉,德语版本

答案2

您可以尝试 pdfocr:

 sudo add-apt-repository ppa:gezakovacs/pdfocr
 sudo apt-get update
 sudo apt-get install pdfocr

执行语法是

 pdfocr -i input.pdf -o output.pdf

其中是输入文件和输出文件input.pdf的名称。output.pdf

默认情况下,它使用 Tesseract。要安装它:

 sudo apt-get install tesseract-ocr

pdfocr 创建一个嵌入的文本层。

答案3

看一下OCR我的PDF效果很好。

答案4

你可以尝试收缩pdf减少文件大小然后ocr工具添加文本层。

相关内容