减少大量扫描 PDF（仅保留 OCR 并删除扫描图像）

2024-6-19 • tag-icon

我有一个很大的扫描 PDF，带有 OCR。我能够将其大小缩小一半，ghostscript win64，使用此命令（如本文所建议的回答)：

gswin64 -sDEVICE=pdfwrite -dCompatibilityLevel=1.4 -dPDFSETTINGS=/screen -dNOPAUSE -dQUIET -dBATCH -sOutputFile=output.pdf input.pdf

但仍然不够轻。

我也可以使用口径或者来自 xpdf 的 pdftotext但我失去了布局。

有没有办法提取 OCR 并保留每页上每个文本的精确位置，同时删除扫描的图像？

你有没有尝试过ocrmypdf和联合大联盟？

ocrmypdf --optimize 3 --jbig2-lossy in.pdf out.pdf

相关内容