了解 Adobe Acrobat 中的 OCR 选项：“可搜索图像”、“可搜索图像（精确）”和“可编辑文本和图像”

Question 1

Adobe 帮助文章将纸质文档扫描为 PDF，识别文本 - 常规设置对话框部分，将扫描模式定义为：

可搜索图像

确保文本可搜索和选择。此选项保留原始图像，根据需要对其进行倾斜校正，并在其上放置一个不可见的文本层。同一对话框中的“降低图像采样”选项决定是否降低图像采样以及降低到何种程度。

可搜索图像（精确）

确保文本可搜索和选择。此选项保留原始图像并在其上放置一个不可见的文本层。建议用于需要最大程度保真原始图像的情况。

可编辑文本和图像

合成一种与原始字体非常接近的新自定义字体，并使用低分辨率副本保留页面背景。

下采样至

OCR 完成后，减少彩色、灰度和单色图像中的像素数。选择要应用的缩减采样程度。数值越高的选项缩减采样越少，生成的 PDF 分辨率越高。

我将分析这些选项对输出文件大小的影响。

所有选项均保留图像，这可能是一个很大的物体。

可搜索图像旋转图像，这可能会改变其大小，使其变大或变小，具体取决于 Adobe 内部使用的图像重新编码方法

下采样至可以降低图像分辨率，从而减小其尺寸，但获得（或丢失）的空间量取决于 Adobe 内部使用的重新采样方法。

可编辑文本和图像合成一种新字体，然后将其包含在 PDF 中，并将在输出大小上增加几十 K 字节。

总而言之，没有明确的方法来创建最小的 PDF。增益（或损失）量取决于进行 OCR 的图像以及 Adobe 重新压缩图像的效率。

如果是为了节省空间，我建议使用可编辑文本和图像，但正如本文所述 Adobe Acrobat 文章，在设置中指定“使用可用的系统字体”，这样可以避免使用自定义字体。如果 OCR 文本足够，您也可以删除图像。

Answer

Adobe 帮助文章将纸质文档扫描为 PDF，识别文本 - 常规设置对话框部分，将扫描模式定义为：

可搜索图像

确保文本可搜索和选择。此选项保留原始图像，根据需要对其进行倾斜校正，并在其上放置一个不可见的文本层。同一对话框中的“降低图像采样”选项决定是否降低图像采样以及降低到何种程度。

可搜索图像（精确）

确保文本可搜索和选择。此选项保留原始图像并在其上放置一个不可见的文本层。建议用于需要最大程度保真原始图像的情况。

可编辑文本和图像

合成一种与原始字体非常接近的新自定义字体，并使用低分辨率副本保留页面背景。

下采样至

OCR 完成后，减少彩色、灰度和单色图像中的像素数。选择要应用的缩减采样程度。数值越高的选项缩减采样越少，生成的 PDF 分辨率越高。