我使用什么来从网站下载所有 PDF？

2024-6-12 • tag-icon

pdf web-crawler

我使用什么来从网站下载所有 PDF？

我需要下载网站上的所有 PDF 文件。问题是，它们没有列在任何一个页面上，所以我需要一些东西（一个程序？一个框架？）来抓取网站并下载文件，或者至少获取文件列表。我试过 WinHTTrack，但无法让它工作。DownThemAll for Firefox 不会抓取多个页面或整个网站。我知道有一个解决方案，因为我不可能是第一个遇到这个问题的人。你会推荐什么？

答案1

从http://www.go2linux.org/tips-and-tricks-of-wget-to-download-files：

wget -r -A pdf http://www.site.com

答案2

Google 有一个选项可以只返回特定类型的文件。将它与“站点”选项结合起来，你就有了“爬虫”。

例子：http://www.google.com/search?q=site:soliddocuments.com+filetype:pdf

答案3

使用一些网络爬虫库，例如 rubyhttp://www.example-code.com/ruby/spider_begin.asp

答案4

如果没有 PDF 文件的链接，爬虫就没用了，你基本上只有两个选择：

从其他地方获取列表（向网站的网站管理员索取列表）
从网站的目录列表中获取列表。但是，如果他们在其 Web 服务器上禁用了此选项，您将无法使用它。

相关内容