我正在尝试使用该命令获取作业文件,但由于某种原因,它没有返回它们。知道为什么吗?
$ wget -A.pdf -r -nd https://noppa.aalto.fi/noppa/kurssi/mat-2.3152/viikkoharjoitukset/
我的目标是下载所有作业,然后将它们合并pdftk
,然后使用某个程序搜索它们 - 但在我完成这项工作之前,我无法继续(无需再次使用 Firefox DownloadThemAll -plugin)。想法为什么不起作用?系统管理员是否对 wgets 设置了一些禁令,或者为什么会失败?
我只得到这个 robots.txt 文件:
$ cat robots.txt
User-agent: *
Disallow: /
User-agent: Googlebot
Allow: /
Disallow: /cgi-bin/
答案1
你的问题出在robots.txt
. Wget 查看它并看到
User-agent: *
Disallow: /
您可以使用tell wget 忽略该robots.txt
文件:
wget -A.pdf -r -nd -e robots=off https://noppa.aalto.fi/noppa/kurssi/mat-2.3152/viikkoharjoitukset/
它会起作用的。