我正在使用这个命令:
wget -nd -e robots=off --wait 0.25 -r -A.pdf http://yourWebsite.net/
但我无法从网站获取 PDF。
例如我有一个根域名:
www.example.com
并且该站点有 PDF、DOC、HTML 等。我只想插入根域名而不是下载页面的确切地址来下载所有 PDF。
答案1
将提供的命令应用到我的 Ubuntu 12.04 机器上使用 wget 版本 1.13.4 运行的一个示例网站:
$ wget -nd -e robots=off --wait 0.25 -r -A.pdf http://www.cvpapers.com
但是,下载第一个 pdf 需要一些时间,因为该网站提供了许多需要跳过的 html 文件。
省略“--wait 0.25”选项会加快该过程,但显然会增加服务器端的工作量。
如果该命令不适用于您的网站,则可能是网站特定的问题/布局/......,导致无法成功下载。