我有一份 7mb 的 PDF,由 65 张扫描的黑白图像制作而成。经过 OCR 处理后,文档变为 32mb。
我从未见过文本占用这么多空间。(理论上 25mb 应该可以容纳 2500 万个未压缩的字母)以纯文本形式保存,我有大约 4KB/页 * 65 = +/- 280KB 的文本。
因为我制作了一个可搜索的图像,所以留下剩余的 32mb 用于定位?不太可能。
似乎有些不对劲,我想看看 pdf 不同部分占用的空间,但我找不到任何可以做到这一点的工具。
编辑:该 PDF 的问题已解决。罪魁祸首是可搜索图像对比可搜索图像(精确)。它肯定对一些图像进行了重新采样,使它们变得更大。不过,我仍然对这个问题的答案感兴趣。
答案1
您要找的工具是 Adobe Acrobat 中的“审计空间使用情况”工具。此工具将逐字节地细分 PDF 的哪些组件对文件大小有影响。
这是一个演示如何查找审计空间使用情况工具的视频。由于某种原因,Adobe 将其隐藏在 Acrobat 中。
该功能可在以下位置找到文件 > 另存为... > 优化 > 审核空间使用情况。