了解 Adob​​e Acrobat 中的 OCR 选项:“可搜索图像”、“可搜索图像(精确)”和“可编辑文本和图像”

了解 Adob​​e Acrobat 中的 OCR 选项:“可搜索图像”、“可搜索图像(精确)”和“可编辑文本和图像”

在 Adob​​e Acrobat 中(如果有必要的话,我使用 Pro DC),有三个 OCR 选项:

  1. “可搜索的图像”。
  2. “可搜索图像(精确)”。
  3. “可编辑的文本和图像”。

在此处输入图片描述

这三个选项有什么区别?

具体来说,是什么决定了输出文件的大小?现在我一直在运行第 1 和第 3 个选项,似乎有时一个较大,有时另一个较大(并且差异可能很大)。

OCR 处理的质量、文件大小和速度之间的权衡是什么(如果有的话)?

答案1

Adobe 帮助文章 将纸质文档扫描为 PDF,识别文本 - 常规设置对话框部分,将扫描模式定义为:

可搜索图像

确保文本可搜索和选择。此选项保留原始图像,根据需要对其进行倾斜校正,并在其上放置一个不可见的文本层。同一对话框中的“降低图像采样”选项决定是否降低图像采样以及降低到何种程度。

可搜索图像(精确)

确保文本可搜索和选择。此选项保留原始图像并在其上放置一个不可见的文本层。建议用于需要最大程度保真原始图像的情况。

可编辑文本和图像

合成一种与原始字体非常接近的新自定义字体,并使用低分辨率副本保留页面背景。

下采样至

OCR 完成后,减少彩色、灰度和单色图像中的像素数。选择要应用的缩减采样程度。数值越高的选项缩减采样越少,生成的 PDF 分辨率越高。

我将分析这些选项对输出文件大小的影响。

所有选项均保留图像,这可能是一个很大的物体。

可搜索图像旋转图像,这可能会改变其大小,使其变大或变小,具体取决于 Adob​​e 内部使用的图像重新编码方法

下采样至可以降低图像分辨率,从而减小其尺寸,但获得(或丢失)的空间量取决于 Adob​​e 内部使用的重新采样方法。

可编辑文本和图像合成一种新字体,然后将其包含在 PDF 中,并将在输出大小上增加几十 K 字节。

总而言之,没有明确的方法来创建最小的 PDF。增益(或损失)量取决于进行 OCR 的图像以及 Adob​​e 重新压缩图像的效率。

如果是为了节省空间,我建议使用可编辑文本和图像,但正如本文所述 Adobe Acrobat 文章,在设置中指定“使用可用的系统字体”,这样可以避免使用自定义字体。如果 OCR 文本足够,您也可以删除图像。

答案2

我对三种 OCR 类型做了一个小测试:

  • 可搜索图像(精确)
  • 可搜索图像
  • 可编辑的文本和图像

我有一个 40 页(20MB)的 PDF,结果显示如下:

结果表

忽略 OCR 背后的机制及其对 PDF 保真度的影响。它看起来像可搜索图像(精确)是最快的 OCR,而可编辑的文本和图像耗时最长,但 OCR 后文件大小显著减小。

希望这会有所帮助!

相关内容