我有一个自动 PDF 处理引擎。我使用过各种工具,例如 PDF-TK、Ghostscript、PyPDF 和 PDFMiner,但这个问题让我很为难。
我使用 Ghostscript 来优化 PDF 文件。到目前为止,此方法没有问题,它提取 PDF 中的图像文件并降低分辨率,文件大小更小。
我的问题:我现在必须处理矢量繁重且带有渐变的 PDF,尽管经过了优化,但文件大小也高达 15-20 MB,这对我来说是不可接受的。此外,它们在 Acrobat 中渲染需要大量处理能力,而且速度很慢。
您对如何解决这个问题有什么建议吗?我原本想计算除文本之外的其他形状(但我不知道该怎么做)。基于这些信息,我可以栅格化整个 PDF,或者更好的是栅格化除文本之外的所有内容。
非常感谢您的帮助!