PDF 文档中的可渲染文本到底是什么?

PDF 文档中的可渲染文本到底是什么?

当尝试对 pdf 文件进行 OCR 时,我收到一条错误消息“Acrobat 无法对此页面执行识别(OCR),因为此页面包含可呈现的文本”。

链接至 Adob​​e 网站

我搜索了什么是可渲染文本,有一篇旧帖子解释说可渲染文本是图像上的矢量格式形状,关联

当我将文本从文件复制到 Word 文档时,我只会看到难以辨认的字符。

是否可以提取可渲染文本 pdf 中的字体或提取矢量形状并以此制作字体?

答案1

PDF 不是一种“文档”格式,而是一种呈现打印页面的格式。它包含命令,指示将哪些图形元素放在页面上的什么位置。其中许多元素是字形(组成字母的基本符号)来自某些字体。这些字形可能(直接)对应于您可以复制和粘贴或放入 Word 文档中的某些字符序列,也可能不对应。PDF 可以包含描述这种对应关系的字体附加表。

图形元素也可以是图像,例如扫描页面的图像。

因此,如果 Acrobat 说“此页面包含可呈现的文本”,则意味着“此页面不是扫描页面的图像。它是字形的集合。我无法对它们进行 OCR,因为它不是图像”。

当您将其复制到 Word 文档中时,如果缺少对应表或编码不标准,则结果将是乱码,因为计算机无法猜测哪个字形或字形组合代表哪个字符。

是否可以提取可渲染文本 pdf 中的字体或提取矢量形状并以此制作字体?

是的,提取字体文件很容易。例如,看看穆托尔斯。你仍然需要一个可以处理该字体文件的应用程序。

答案2

绕过可呈现文本并使用 OCR 的最佳方法是将文档打印为 PDF。(单击“打印”,转到打印机并从下拉菜单中选择“打印为 PDF”)。新的 PDF 将具有可识别的文本。

相关内容