有没有一种自动的方法可以提取 pdf 中突出显示的文本?

有没有一种自动的方法可以提取 pdf 中突出显示的文本?

是否有一个命令行解决方案可以从 pdf 中提取突出显示的文本?

我有一堆我亲自注释的 PDF 文档,想知道是否有一种方便的方法可以自动将其提取到文本文件中

编辑这不是一个重复的问题,因为我正在寻找一个命令行像 ImageMagick 这样的图像处理解决方案。

答案1

我建议使用这个漂亮的小 Python 库pdfannots,它具有您正在寻找的功能。

$ pdfannots document.pdf

如果与其他 Bash 命令结合使用,它可以产生格式良好的输出。例如:

$ pdfannots document.pdf --no-condense | \
# Removing duplicate lines:
cat -n | sort -uk2 | sort -nk1 | cut -f2- | \
# Improving output formatting:
awk '{$1=$1};1' | sed 's/^\(> \)//g' | sed 's/* Page #/\n&/'

答案2

在Linux下你可以使用pdfgrep

相关内容