减少大量扫描 PDF(仅保留 OCR 并删除扫描图像)

减少大量扫描 PDF(仅保留 OCR 并删除扫描图像)

我有一个很大的扫描 PDF,带有 OCR。我能够将其大小缩小一半,ghostscript win64,使用此命令(如本文所建议的回答):

gswin64 -sDEVICE=pdfwrite -dCompatibilityLevel=1.4 -dPDFSETTINGS=/screen -dNOPAUSE -dQUIET -dBATCH -sOutputFile=output.pdf input.pdf

但仍然不够轻。

我也可以使用口径或者来自 xpdf 的 pdftotext但我失去了布局。

有没有办法提取 OCR 并保留每页上每个文本的精确位置,同时删除扫描的图像?

答案1

你有没有尝试过ocrmypdf联合大联盟

ocrmypdf --optimize 3 --jbig2-lossy in.pdf out.pdf

相关内容