减小扫描的 PDF 大小

2024-6-18 • tag-icon

我遇到过这种情况，我发现了大量扫描的 PDF 文件。这些 PDF 实际上是浪费资源的图像格式的薄包装。每个文件大小为几 MB。档案的总大小超过 1TB。我知道没有进行 OCR 工作……PDF仅有的有图像，但没有文本层或搜索功能。

我想缩小这个档案的大小。我知道如果我有原始图像，它们会很容易地从每张 3-6MB 压缩到每张几百 KB，而且质量不会有明显的损失……大小缩小了 10 倍。我不知道如何从这些 PDF 恢复到原始图像，如何从缩小的图像重新创建 PDF 文件（出于某种原因，用户非常喜欢 PDF），以及如何以合理的自动化方式完成所有这些工作。

另外一个问题是，在极少数情况下，档案中的一些较新的 PDF 来自单独的文件，并且可能具有我们不想丢失的可搜索文本层。

关于如何有效地处理这些文件，有什么想法吗？

相关内容