我有一个 PDF 文件。我需要将该文件中的书签提取到文本文件或 Excel 电子表格中。我还需要验证大型 PDF 文件中的书签。我该怎么做呢?
答案1
您可以使用pdftk从 PDF 文件中提取数据(特别是书签)。
例子:使用 pdftk 2.02,
pdftk file.pdf dump_data_utf8 | grep '^Bookmark'
输出书签列表,每个书签 4 行,格式如下:
BookmarkBegin
BookmarkTitle: <title in UTF8>
BookmarkLevel: <number>
BookmarkPageNumber: <number>
例如,级别 1 对应于节,级别 2 对应于小节,依此类推。dump_data_utf8
您可以使用代替dump_data
,这将为您提供非 ASCII 字符的 HTML/XML 数字实体(例如è
“è”)。
注意:如果没有grep
,您可以获得其他有趣的数据,例如元数据(创建日期、作者、关键字、标题等)、页数和每页的尺寸。这个 pdftk 实用程序可以对 PDF 文件执行其他操作;看到它的手册页以获得完整的描述。