wget 递归协助

wget 递归协助

我正在尝试从网站上的目录下载所有 pdf 文件,内容如下:

wget -r -l1 --no-parent -A.pdf http://www.eduplace.com/math/mw/practice/1/practice/

但是,我不断收到“错误 404:未找到”。这似乎是一个非常简单的用法,我不知道下一步该尝试什么。

答案1

wget -r 仅当所有 pdf 链接都可以从给定 URL 访问时才有效。

您可以做的是“查看”特定站点的 html 源代码http://eduplace.com/math/mw/practice/1/lp_1_u1sel.html查看所有 pdf 链接是如何构建的。然后编写一个小脚本来自动执行此操作,如下所示:

wget http://eduplace.com/math/mw/practice/1/lp_1_u1sel.html
CHAPT=$(grep chapter  lp_1_u1sel.html | sed 's/.*value="\([^"]*\)".*/\1/')
FEAT=$(grep feature  lp_1_u1sel.html | sed 's/.*value="\([^"]*\)".*/\1/')
for c in $CHAPT; do
    for f in $FEAT; do
        wget -O mw-practice-1-$c-$f.pdf https://www.eduplace.com/math/mw/practice/1/$c/$f.pdf
    done
done

相关内容