我有一个很大的扫描 PDF,带有 OCR。我能够将其大小缩小一半,ghostscript win64,使用此命令(如本文所建议的回答):
gswin64 -sDEVICE=pdfwrite -dCompatibilityLevel=1.4 -dPDFSETTINGS=/screen -dNOPAUSE -dQUIET -dBATCH -sOutputFile=output.pdf input.pdf
但仍然不够轻。
我也可以使用口径或者来自 xpdf 的 pdftotext但我失去了布局。
有没有办法提取 OCR 并保留每页上每个文本的精确位置,同时删除扫描的图像?