我正在尝试从网站上的目录下载所有 pdf 文件,内容如下:
wget -r -l1 --no-parent -A.pdf http://www.eduplace.com/math/mw/practice/1/practice/
但是,我不断收到“错误 404:未找到”。这似乎是一个非常简单的用法,我不知道下一步该尝试什么。
答案1
wget -r 仅当所有 pdf 链接都可以从给定 URL 访问时才有效。
您可以做的是“查看”特定站点的 html 源代码http://eduplace.com/math/mw/practice/1/lp_1_u1sel.html查看所有 pdf 链接是如何构建的。然后编写一个小脚本来自动执行此操作,如下所示:
wget http://eduplace.com/math/mw/practice/1/lp_1_u1sel.html
CHAPT=$(grep chapter lp_1_u1sel.html | sed 's/.*value="\([^"]*\)".*/\1/')
FEAT=$(grep feature lp_1_u1sel.html | sed 's/.*value="\([^"]*\)".*/\1/')
for c in $CHAPT; do
for f in $FEAT; do
wget -O mw-practice-1-$c-$f.pdf https://www.eduplace.com/math/mw/practice/1/$c/$f.pdf
done
done