pdf黑白压缩而不丢失文本识别

pdf黑白压缩而不丢失文本识别

我正在寻找一种方法来减少我拥有的各种 pdf 档案的大小。我测试了很多程序和机制。我通过以下顺序获得了最佳结果:

pdfimages -png file.pdf image

然后我使用scantailor(GUI)处理这些图像以降低分辨率并将所有页面转换为黑白。现在我用以下方法压缩它们:

jbig2 -s -p -v *.jpg && pdf.py output > out.pdf

我的尺寸减小了 4-x5 倍,质量损失很小。到目前为止,一切都很好。问题是我在这个过程中丢失了 OCR 和注释。

是否有任何程序或机制可以完成所有这些步骤:降低 PDF 分辨率、将其转换为黑白并压缩而不jbig2enc丢失文本识别和注释?

相关内容