假设一个 pdf 文档包含第 1、3 和 14 页上的文本突出显示。是否有一个 Linux 命令行工具(或一组其输出可以相互传送的工具)可以报告包含以下内容的页面的页码:突出显示的文本?就像是:
$ sought_tool --list-pages-with-highlights doc.pdf
1 3 14
答案1
漂亮的小 Python 库pdf注释完全具有所需的能力。
$ pdfannots doc.pdf
如果与grep
和结合使用awk
,可以产生所需的结果。
$ pdfannots doc.pdf | \
grep "* Page #" | \
awk -F':' '{print $1}' | \
awk -F'#' '{print $2}' | \
sort -u -n | \
paste -s -d ' '
1 3 14