我有这个 rss 页面,其中有很多指向 .pdf 文件的链接。
关键是要在这些 .pdf 中搜索某些字符串,而不需要逐个打开它们,然后对每一个进行搜索,因为它们确实很多!
有人知道我们如何在这些 pdf 中进行搜索吗?
有什么想法吗?有浏览器扩展吗?有允许这样做的 RSS 源吗?
答案1
您可以随时使用 Google。
filetype:pdf site:http://xyz.com/abc <your keyword(s) here>
可以帮你完成这项工作。你只需要在 PDF 中找到公共域。我的意思是,如果页面上有两个 PDF 位于http://xyz.com/abc/1.pdf和http://xyz.com/abc/2.pdf然后你就可以使用了site:http://xyz.com/abc
。Onlysite:http://xyz.com
也可以工作,但是会给你带来它在网站上找到的所有 PDF。
所以你要具体一点。
答案2
先下载文件,然后搜索
find /path -name '*.pdf' -ls -exec pdftotext {} - \; | grep "your query"