在 pdfpages 中搜索并突出显示单词/数字,同时仅打印突出显示的页面

在 pdfpages 中搜索并突出显示单词/数字,同时仅打印突出显示的页面

我有一个项目非常有助于包含带有特定文本和/或数字突出显示的 pdf 页面,并将输出页面限制为具有突出显示术语的页面。

\documentclass[12pt,letterpaper]{scrartcl} 
\usepackage {fontspec} 
\usepackage{pdfpages}

{phrase to be searched,word,word2,word3,another phrase, 555-222-1212}

\begin{document}

\includepdf[pages=-,pagecommand={\thispagestyle{empty}},width=\textwidth]{First.pdf}
\includepdf[pages=-,pagecommand={\thispagestyle{empty}},width=\textwidth]{Second.pdf}
\includepdf[pages=-,pagecommand={\thispagestyle{empty}},width=\textwidth]{Third.pdf}

\end{document}

这样输出将是 First.pdf、Second.pdf 和 Third.pdf 的组合内容,但仅包含包含术语“要搜索的短语、单词、单词2、单词3、另一个短语、555-222-1212”的页面,并且这些术语的背景突出显示。

我发现最接近这个的是根据关键字文件自动建立索引读完后,我发现自己不确定如何才能做出一个完整的例子。这个问题可能既有 ocr 解决方案,也有 pdf-already-with-text 解决方案。我知道这个问题问得有点多,但我之前对 TeX 所能实现的功能感到惊讶。

如何突出关键词?可能与该问题相关。

让灵魂凸显跨越界限描述如何使用灵魂包来突出显示文本。

或者使用正则表达式自动向 PDF 文件添加注释

看起来 pdfjam 可以从 pdf 中提取页面:快速从文档中提取单个页面

另一种方法是:通过从 pdf 文件中提取文本,然后重新组装文档来完成此操作吗?(我意识到大多数/所有格式都会丢失)

相关内容