我想在 PDF 文件中搜索一些文本。例如,我的 PDF 中单词“转到”在哪里?如果找到,那么在哪一页?
我发现这个命令行:
find /TEMP -name 'manu.pdf' -exec pdftotext {} - \; | grep "go to"
它产生了一些元素。
我想获取结果的页码。如何检索该项目?
答案1
答案2
默认情况下,pdftotext 会在页面之间插入换页符 (0xC)。您可以计算出搜索单词出现的次数。
另一种方法是使用以下bbox
选项:
Generate an XHTML file containing bounding box information for each word in the file.
在这里,每个单词都包含在一个page
容器中。因此,您可以将单词所在的索引 +1page
作为页码。
答案3
Recoll 可以搜索 PDF 文档。它有一个命令行模式,但 GUI 更有助于详细说明匹配发生的位置,并允许您在正确的位置单击打开文档。