如何在 PDF 文件中搜索文本

如何在 PDF 文件中搜索文本

我想在 PDF 文件中搜索一些文本。例如,我的 PDF 中单词“转到”在哪里?如果找到,那么在哪一页?

我发现这个命令行:

find /TEMP -name 'manu.pdf' -exec pdftotext {} - \; | grep "go to"

它产生了一些元素。

我想获取结果的页码。如何检索该项目?

答案1

pdfgrep似乎可以做到这一点。从手册页

-n, --page-number
Prefix each match with the number of the page where it was found.

答案2

默认情况下,pdftotext 会在页面之间插入换页符 (0xC)。您可以计算出搜索单词出现的次数。

另一种方法是使用以下bbox选项:

 Generate an XHTML file containing bounding box information for each word in the file.

在这里,每个单词都包含在一个page容器中。因此,您可以将单词所在的索引 +1page作为页码。

答案3

Recoll 可以搜索 PDF 文档。它有一个命令行模式,但 GUI 更有助于详细说明匹配发生的位置,并允许您在正确的位置单击打开文档。

相关内容