![pdf黑白压缩而不丢失文本识别](https://linux22.com/image/175636/pdf%E9%BB%91%E7%99%BD%E5%8E%8B%E7%BC%A9%E8%80%8C%E4%B8%8D%E4%B8%A2%E5%A4%B1%E6%96%87%E6%9C%AC%E8%AF%86%E5%88%AB.png)
我正在寻找一种方法来减少我拥有的各种 pdf 档案的大小。我测试了很多程序和机制。我通过以下顺序获得了最佳结果:
pdfimages -png file.pdf image
然后我使用scantailor
(GUI)处理这些图像以降低分辨率并将所有页面转换为黑白。现在我用以下方法压缩它们:
jbig2 -s -p -v *.jpg && pdf.py output > out.pdf
我的尺寸减小了 4-x5 倍,质量损失很小。到目前为止,一切都很好。问题是我在这个过程中丢失了 OCR 和注释。
是否有任何程序或机制可以完成所有这些步骤:降低 PDF 分辨率、将其转换为黑白并压缩而不jbig2enc
丢失文本识别和注释?