我需要下载网站上的所有 PDF 文件。问题是,它们没有列在任何一个页面上,所以我需要一些东西(一个程序?一个框架?)来抓取网站并下载文件,或者至少获取文件列表。我试过 WinHTTrack,但无法让它工作。DownThemAll for Firefox 不会抓取多个页面或整个网站。我知道有一个解决方案,因为我不可能是第一个遇到这个问题的人。你会推荐什么?
答案1
从http://www.go2linux.org/tips-and-tricks-of-wget-to-download-files:
wget -r -A pdf http://www.site.com
答案2
Google 有一个选项可以只返回特定类型的文件。将它与“站点”选项结合起来,你就有了“爬虫”。
例子:http://www.google.com/search?q=site:soliddocuments.com+filetype:pdf
答案3
使用一些网络爬虫库,例如 rubyhttp://www.example-code.com/ruby/spider_begin.asp
答案4
如果没有 PDF 文件的链接,爬虫就没用了,你基本上只有两个选择:
- 从其他地方获取列表(向网站的网站管理员索取列表)
- 从网站的目录列表中获取列表。但是,如果他们在其 Web 服务器上禁用了此选项,您将无法使用它。