如何在给定的网页上搜索.pdf 链接?

如何在给定的网页上搜索.pdf 链接?

我有这个 rss 页面,其中有很多指向 .pdf 文件的链接。

关键是要在这些 .pdf 中搜索某些字符串,而不需要逐个打开它们,然后对每一个进行搜索,因为它们确实很多!

有人知道我们如何在这些 pdf 中进行搜索吗?

有什么想法吗?有浏览器扩展吗?有允许这样做的 RSS 源吗?

答案1

您可以随时使用 Google。

filetype:pdf site:http://xyz.com/abc <your keyword(s) here>可以帮你完成这项工作。你只需要在 PDF 中找到公共域。我的意思是,如果页面上有两个 PDF 位于http://xyz.com/abc/1.pdfhttp://xyz.com/abc/2.pdf然后你就可以使用了site:http://xyz.com/abc。Onlysite:http://xyz.com也可以工作,但是会给你带来它在网站上找到的所有 PDF。

所以你要具体一点。

答案2

先下载文件,然后搜索

find /path -name '*.pdf' -ls -exec pdftotext {} - \; | grep "your query"

相关内容