如何仅使用根域名下载网站的 PDF?

如何仅使用根域名下载网站的 PDF?

我正在使用这个命令:

wget -nd -e robots=off --wait 0.25 -r -A.pdf http://yourWebsite.net/

但我无法从网站获取 PDF。

例如我有一个根域名:

www.example.com

并且该站点有 PDF、DOC、HTML 等。我只想插入根域名而不是下载页面的确切地址来下载所有 PDF。

答案1

以下命令应该有效:

wget -r -A "*.pdf" "http://yourWebsite.net/"

man wget了解更多信息。

答案2

如果上述方法不起作用,请尝试以下方法:(替换 URL)

lynx -listonly -dump http://www.philipkdickfans.com/resources/journals/pkd-otaku/ | grep pdf | awk '/^[ ]*[1-9][0-9]*\./{sub("^ [^.]*.[ ]*","",$0); print;}' | xargs -L1 -I {} wget {} 

您可能需要安装 lynx:

sudo apt install lynx

相关内容