如何将扫描的 PDF 转换为带文本的 PDF

Question 1

gImageReader 是一个简单的 GTK+ 前端tesseract-ocr。

sudo apt-get install gimagereader tesseract-ocr

抱歉，德语版本

Answer

gImageReader 是一个简单的 GTK+ 前端tesseract-ocr。

sudo apt-get install gimagereader tesseract-ocr

抱歉，德语版本

Question 2

您可以尝试 pdfocr：

 sudo add-apt-repository ppa:gezakovacs/pdfocr
 sudo apt-get update
 sudo apt-get install pdfocr

执行语法是

 pdfocr -i input.pdf -o output.pdf

其中是输入文件和输出文件input.pdf的名称。output.pdf

默认情况下，它使用 Tesseract。要安装它：

 sudo apt-get install tesseract-ocr

pdfocr 创建一个嵌入的文本层。

Answer