当尝试对 pdf 文件进行 OCR 时,我收到一条错误消息“Acrobat 无法对此页面执行识别(OCR),因为此页面包含可呈现的文本”。
我搜索了什么是可渲染文本,有一篇旧帖子解释说可渲染文本是图像上的矢量格式形状,关联。
当我将文本从文件复制到 Word 文档时,我只会看到难以辨认的字符。
是否可以提取可渲染文本 pdf 中的字体或提取矢量形状并以此制作字体?
答案1
PDF 不是一种“文档”格式,而是一种呈现打印页面的格式。它包含命令,指示将哪些图形元素放在页面上的什么位置。其中许多元素是字形(组成字母的基本符号)来自某些字体。这些字形可能(直接)对应于您可以复制和粘贴或放入 Word 文档中的某些字符序列,也可能不对应。PDF 可以包含描述这种对应关系的字体附加表。
图形元素也可以是图像,例如扫描页面的图像。
因此,如果 Acrobat 说“此页面包含可呈现的文本”,则意味着“此页面不是扫描页面的图像。它是字形的集合。我无法对它们进行 OCR,因为它不是图像”。
当您将其复制到 Word 文档中时,如果缺少对应表或编码不标准,则结果将是乱码,因为计算机无法猜测哪个字形或字形组合代表哪个字符。
是否可以提取可渲染文本 pdf 中的字体或提取矢量形状并以此制作字体?
是的,提取字体文件很容易。例如,看看穆托尔斯。你仍然需要一个可以处理该字体文件的应用程序。
答案2
绕过可呈现文本并使用 OCR 的最佳方法是将文档打印为 PDF。(单击“打印”,转到打印机并从下拉菜单中选择“打印为 PDF”)。新的 PDF 将具有可识别的文本。