通过编程访问 PDF 目录

通过编程访问 PDF 目录

许多 PDF 文档都包含分层目录。我指的不是页面上可见的目录,而是在使用 Preview 等应用查看 PDF 时用于生成侧边栏链接的元数据。我该如何提取它?我不需要 GUI 应用,因为我将使用脚本从许多文档中提取此信息。

答案1

python 包pdfminer能够提取此信息。使用软件包附带的 dumppdf.py 脚本。

dumppdf.py -T /path/to/my/PDF

生成目录的 XML。

笔记:感谢@krowe 提供链接来源在评论中查看这个答案。

相关内容