可以提取 djvu 文件中每个页面的标题和页码

可以提取 djvu 文件中每个页面的标题和页码

这是 djvu 版本我之前针对 pdf 文件提出的问题。我尝试过类似的想法弗雷德已经回答了上一个问题。但我现在陷入了如何获取 djvu 文件的页数的困境,因为我不知道哪个命令可用于此目的。

为了完整起见,我现在在这里重新表述一下问题:

我想知道是否有一些方法可以提取 djvu 文件中每个页面的标题和页码?要么通过某些应用程序,要么通过某些编程语言和某些 djvu 库进行编程?

每个页面的标题应该是页面的第一行,例如在幻灯片/演示文稿文件中。

输出应该是一个文本文件,格式如下:

title_of_first_page pagenum_of_first_page
title_of_second_page pagenum_of_second_page
...

感谢致敬!

答案1

类似于.pdf 示例,以下脚本将打印给定页面上找到的第一行文本(通过head -n 1)。您可以通过djvused --help在终端中 键入来查看可用的命令。

djvused包装内有djvulibre-bin

if="$HOME/Downloads/The Geometry of Exponential Families.djvu"
pages=$(djvused -e 'n' "$if")
for ((i=1; i<=$pages; i++)) ;do
    printf "%s %d\n" "$(djvused -e 'select '$i'; print-pure-txt' "$if" | head -n 1)" $i
done

相关内容