可以提取pdf文件中每页的标题和页码

可以提取pdf文件中每页的标题和页码

我想知道是否有一些方法可以提取pdf文件中每页的标题和页码?要么通过一些应用程序,要么通过一些编程语言和一些pdf库进行编程?

每个页面的标题应该是页面的第一行,例如在幻灯片/演示文稿文件中。

输出应该是一个文本文件,格式如下:

title_of_first_page pagenum_of_first_page
title_of_second_page pagenum_of_second_page
...

答案1

以下脚本将打印作为参数传递的 PDF 文件每页的第一行,后跟空格和行号...它使用以下工具:波普勒(Debian 或 Ubuntu 上的软件包poppler-utils)。

#!/bin/bash
if="$1"
pages=$(pdfinfo "$if" | sed -nre 's/^Pages: +([0-9]+)$/\1/p')
for ((i=1; i<=$pages; i++)) ;do
    printf "%s %d\n" "$(pdftotext -f $i -l $i -layout "$if" - | head -n 1)" $i
done

相关内容