从PDF文件中提取文档信息，例如边距宽度？

Question

不过，我正在寻找一种方法来获取更具体的信息，例如边距宽度

PDF 格式基本上描述了在页面上放置字形（“字母”）的位置（除其他事项外，但这只是大部分）。您可以自己处理此信息并从中计算边距，或者您可以将其渲染为ghostscript图像并处理以恢复边距，但“边距是多少”本身并不在 PDF 中。不过，有边界框信息。

使用的字体系列

该信息可能会或可能不会在 PDF 中 - 字体被命名，但字体可以作为一个整体包含在内，如果命名是使用生成的名称自动进行的，则将很难识别字体。

因为如果有编程方式来提取这些信息（例如 C 或 Python 库），我也愿意使用它们。

看一下多普夫夫它带有一个库和一个 CLI 工具mutool。您可以使用它来解压缩 PDF 内的流，然后您可以在编辑器中打开生成的文件。 PDF规范是例如这里。

我的主要目标是能够复制文档中的所有边距/字体信息（假设它们是一致的并且是由 TeX 或 LaTeX 等程序制作的），这样我就可以重现它们的确切样式。

这将是极其困难的，除非 LaTeX 源代码通过特定的工具链进行处理，并使用特定的 PDF 样式。如果您知道来源是 LaTeX，那么您可能会很幸运地识别出字体。

Answer 1