如何仅使用根域名下载网站的 PDF?

如何仅使用根域名下载网站的 PDF?

我正在使用这个命令:

wget -nd -e robots=off --wait 0.25 -r -A.pdf http://yourWebsite.net/

但我无法从网站获取 PDF。

例如我有一个根域名:

www.example.com

并且该站点有 PDF、DOC、HTML 等。我只想插入根域名而不是下载页面的确切地址来下载所有 PDF。

答案1

将提供的命令应用到我的 Ubuntu 12.04 机器上使用 wget 版本 1.13.4 运行的一个示例网站:

$ wget -nd -e robots=off --wait 0.25 -r -A.pdf http://www.cvpapers.com

但是,下载第一个 pdf 需要一些时间,因为该网站提供了许多需要跳过的 html 文件。

省略“--wait 0.25”选项会加快该过程,但显然会增加服务器端的工作量。

如果该命令不适用于您的网站,则可能是网站特定的问题/布局/......,导致无法成功下载。

相关内容