我有一个项目非常有助于包含带有特定文本和/或数字突出显示的 pdf 页面,并将输出页面限制为具有突出显示术语的页面。
\documentclass[12pt,letterpaper]{scrartcl}
\usepackage {fontspec}
\usepackage{pdfpages}
{phrase to be searched,word,word2,word3,another phrase, 555-222-1212}
\begin{document}
\includepdf[pages=-,pagecommand={\thispagestyle{empty}},width=\textwidth]{First.pdf}
\includepdf[pages=-,pagecommand={\thispagestyle{empty}},width=\textwidth]{Second.pdf}
\includepdf[pages=-,pagecommand={\thispagestyle{empty}},width=\textwidth]{Third.pdf}
\end{document}
这样输出将是 First.pdf、Second.pdf 和 Third.pdf 的组合内容,但仅包含包含术语“要搜索的短语、单词、单词2、单词3、另一个短语、555-222-1212”的页面,并且这些术语的背景突出显示。
我发现最接近这个的是根据关键字文件自动建立索引读完后,我发现自己不确定如何才能做出一个完整的例子。这个问题可能既有 ocr 解决方案,也有 pdf-already-with-text 解决方案。我知道这个问题问得有点多,但我之前对 TeX 所能实现的功能感到惊讶。
如何突出关键词?可能与该问题相关。
让灵魂凸显跨越界限描述如何使用灵魂包来突出显示文本。
看起来 pdfjam 可以从 pdf 中提取页面:快速从文档中提取单个页面
另一种方法是:通过从 pdf 文件中提取文本,然后重新组装文档来完成此操作吗?(我意识到大多数/所有格式都会丢失)