答案1
Adobe 帮助文章 将纸质文档扫描为 PDF,识别文本 - 常规设置对话框部分,将扫描模式定义为:
可搜索图像
确保文本可搜索和选择。此选项保留原始图像,根据需要对其进行倾斜校正,并在其上放置一个不可见的文本层。同一对话框中的“降低图像采样”选项决定是否降低图像采样以及降低到何种程度。
可搜索图像(精确)
确保文本可搜索和选择。此选项保留原始图像并在其上放置一个不可见的文本层。建议用于需要最大程度保真原始图像的情况。
可编辑文本和图像
合成一种与原始字体非常接近的新自定义字体,并使用低分辨率副本保留页面背景。
下采样至
OCR 完成后,减少彩色、灰度和单色图像中的像素数。选择要应用的缩减采样程度。数值越高的选项缩减采样越少,生成的 PDF 分辨率越高。
我将分析这些选项对输出文件大小的影响。
所有选项均保留图像,这可能是一个很大的物体。
可搜索图像旋转图像,这可能会改变其大小,使其变大或变小,具体取决于 Adobe 内部使用的图像重新编码方法
下采样至可以降低图像分辨率,从而减小其尺寸,但获得(或丢失)的空间量取决于 Adobe 内部使用的重新采样方法。
可编辑文本和图像合成一种新字体,然后将其包含在 PDF 中,并将在输出大小上增加几十 K 字节。
总而言之,没有明确的方法来创建最小的 PDF。增益(或损失)量取决于进行 OCR 的图像以及 Adobe 重新压缩图像的效率。
如果是为了节省空间,我建议使用可编辑文本和图像,但正如本文所述 Adobe Acrobat 文章,在设置中指定“使用可用的系统字体”,这样可以避免使用自定义字体。如果 OCR 文本足够,您也可以删除图像。
答案2
我对三种 OCR 类型做了一个小测试:
- 可搜索图像(精确)
- 可搜索图像
- 可编辑的文本和图像
我有一个 40 页(20MB)的 PDF,结果显示如下:
忽略 OCR 背后的机制及其对 PDF 保真度的影响。它看起来像可搜索图像(精确)是最快的 OCR,而可编辑的文本和图像耗时最长,但 OCR 后文件大小显著减小。
希望这会有所帮助!