我以 600dpi 的分辨率扫描了一段文本,结果发现它比制作 PDF 所需的内容要多得多。我已经对文本进行了 OCR 处理,我想在 PDF 中保留 OCR。
我想减少像素数(dpi?抱歉,我不知道该怎么称呼它们,我不熟悉图像处理),这样我就可以让 PDF 尺寸变小。当我打开 PDF 时,图像太大,通过减少像素数来缩小它们就可以了(现在,我可以将图像放大到比我需要的更多)。
如何通过减少像素数(dpi)来缩小图像尺寸?
我不想重新打印 PDF 或重新扫描它,因为我不想丢失 OCR。我尝试使用 Adobe Acrobat Pro DC“另存为优化 PDF”,并将所有高于 50dpi 的图像缩小到 50dpi。它使 PDF 变得更大!(我认为 PDF 已经压缩;但我不想压缩,我想减少像素数/分辨率)
我使用的是 Windows 7,64 位
答案1
我认为您使用 Acrobat Pro 的思路是正确的。
不过,您需要更改实际图像分辨率。您可以通过手动创建低分辨率版本(例如 50% W x 50% H)并用新图像替换 pdf 中的现有图像来实现此目的。在这种情况下,pdf 中的图像 dpi 也需要减半才能保持大小。如果您保持相同的 dpi,则其大小将只有原来的四分之一。
只要文档尺寸不变,OCR 文本就应该映射到相同的空间坐标。
编辑:使用 Acrobat Pro 进行批处理
下面您可以看到 Acrobat Pro (XI) 可以查看图像属性。
- 一旦图像成为 PDF 的一部分,它就会获得物理“尺寸“在‘虚拟试卷’上。”
- ppi(或 dpi,但更多用于打印环境)是 pdf 度量标准,它给出比率物理尺寸和像素数之间的区别。我认为图片中显示的单位 pt/inch 不正确;应该是 ppi。我还认为称其为分辨率是一个糟糕的措辞。
- 真正的图像分辨率(宽度高度) 是与 pdf 无关的图像属性,它会影响文件的大小以及以数字方式查看时可以放大到什么程度。
有一个简单的数学关系:2 = 3 / 1。
- 您要做的是减少 3 同时保持 1 不变,从而隐式地将 2 减少相应的量。
- 大多数编辑器都使用“更改 dpi”这样的措辞,其效果实际上是相同的:更改 2 并隐式调整 3 以使 1 保持相同的大小。
- 但从本质上讲,最大的变化发生在图像分辨率 (3) 上,ppi/dpi 只是一个需要在 pdf 中更新的数字;所以我觉得我的措辞更好:)
下面,您可以使用 Acrobat Pro 在您的 PDF 上运行某种“智能过滤器”,可用的预设过滤器之一是降低图像 dpi。因此,您可以直接运行此预检选项或创建自己的选项。您可以调整缩小选项和图像压缩方法。
我觉得你可以用此方法结合“动作向导”工具批量处理多个pdf文件。
答案2
塞伊达的压缩 PDF该工具可优化 PDF 文档中的图像,根据您的选择更改其 DPI。
https://www.sejda.com/compress-pdf
还有桌面应用程序可供使用。
我是开发人员之一。
答案3
我一直在寻找类似的解决方案,如果可以的话,我愿意为像我这样的 MacOS 用户提供资源。João Alfaiate 和 Paulo Andrade 开发的 LightWeight PDF 是 Apple App Store 上的一款免费应用程序,非常简单,而且效果很好。我将 PDF 从 666MB 缩小到 65MB,质量下降非常可接受。