我使用什么来从网站下载所有 PDF?

我使用什么来从网站下载所有 PDF?

我需要下载网站上的所有 PDF 文件。问题是,它们没有列在任何一个页面上,所以我需要一些东西(一个程序?一个框架?)来抓取网站并下载文件,或者至少获取文件列表。我试过 WinHTTrack,但无法让它工作。DownThemAll for Firefox 不会抓取多个页面或整个网站。我知道有一个解决方案,因为我不可能是第一个遇到这个问题的人。你会推荐什么?

答案1

答案2

Google 有一个选项可以只返回特定类型的文件。将它与“站点”选项结合起来,你就有了“爬虫”。

例子:http://www.google.com/search?q=site:soliddocuments.com+filetype:pdf

答案3

使用一些网络爬虫库,例如 rubyhttp://www.example-code.com/ruby/spider_begin.asp

答案4

如果没有 PDF 文件的链接,爬虫就没用了,你基本上只有两个选择:

  1. 从其他地方获取列表(向网站的网站管理员索取列表)
  2. 从网站的目录列表中获取列表。但是,如果他们在其 Web 服务器上禁用了此选项,您将无法使用它。

相关内容