PDF 文档中的可渲染文本到底是什么？

Question 1

PDF 不是一种“文档”格式，而是一种呈现打印页面的格式。它包含命令，指示将哪些图形元素放在页面上的什么位置。其中许多元素是字形（组成字母的基本符号）来自某些字体。这些字形可能（直接）对应于您可以复制和粘贴或放入 Word 文档中的某些字符序列，也可能不对应。PDF 可以包含描述这种对应关系的字体附加表。

图形元素也可以是图像，例如扫描页面的图像。

因此，如果 Acrobat 说“此页面包含可呈现的文本”，则意味着“此页面不是扫描页面的图像。它是字形的集合。我无法对它们进行 OCR，因为它不是图像”。

当您将其复制到 Word 文档中时，如果缺少对应表或编码不标准，则结果将是乱码，因为计算机无法猜测哪个字形或字形组合代表哪个字符。

是否可以提取可渲染文本 pdf 中的字体或提取矢量形状并以此制作字体？

是的，提取字体文件很容易。例如，看看穆托尔斯。你仍然需要一个可以处理该字体文件的应用程序。

Answer

PDF 不是一种“文档”格式，而是一种呈现打印页面的格式。它包含命令，指示将哪些图形元素放在页面上的什么位置。其中许多元素是字形（组成字母的基本符号）来自某些字体。这些字形可能（直接）对应于您可以复制和粘贴或放入 Word 文档中的某些字符序列，也可能不对应。PDF 可以包含描述这种对应关系的字体附加表。

图形元素也可以是图像，例如扫描页面的图像。