我把大约80页扫描成灰度pdf(图像格式)。文件最终大小约为70MB,非常庞大。
现在我正在寻找一种方法将基于灰度图像的 PDF 文件转换为简单的基于黑白文本的 PDF 文件。
我尝试了很多次,gs
但都没有成功(只恢复了百分之几)。如果有专家知道的话,请告诉我。
答案1
答案2
您可以尝试 pdfocr:
sudo add-apt-repository ppa:gezakovacs/pdfocr
sudo apt-get update
sudo apt-get install pdfocr
执行语法是
pdfocr -i input.pdf -o output.pdf
其中是输入文件和输出文件input.pdf
的名称。output.pdf
默认情况下,它使用 Tesseract。要安装它:
sudo apt-get install tesseract-ocr
pdfocr 创建一个嵌入的文本层。
答案3
看一下OCR我的PDF效果很好。