减小扫描的 PDF 大小

减小扫描的 PDF 大小

我遇到过这种情况,我发现了大量扫描的 PDF 文件。这些 PDF 实际上是浪费资源的图像格式的薄包装。每个文件大小为几 MB。档案的总大小超过 1TB。我知道没有进行 OCR 工作……PDF仅有的有图像,但没有文本层或搜索功能。

我想缩小这个档案的大小。我知道如果我有原始图像,它们会很容易地从每张 3-6MB 压缩到每张几百 KB,而且质量不会有明显的损失……大小缩小了 10 倍。我不知道如何从这些 PDF 恢复到原始图像,如何从缩小的图像重新创建 PDF 文件(出于某种原因,用户非常喜欢 PDF),以及如何以合理的自动化方式完成所有这些工作。

另外一个问题是,在极少数情况下,档案中的一些较新的 PDF 来自单独的文件,并且可能具有我们不想丢失的可搜索文本层。

关于如何有效地处理这些文件,有什么想法吗?

相关内容