对“$ wget -A.pdf -r site.com”进行故障排除

对“$ wget -A.pdf -r site.com”进行故障排除

我正在尝试使用该命令获取作业文件,但由于某种原因,它没有返回它们。知道为什么吗?

$ wget -A.pdf -r -nd https://noppa.aalto.fi/noppa/kurssi/mat-2.3152/viikkoharjoitukset/

我的目标是下载所有作业,然后将它们合并pdftk,然后使用某个程序搜索它们 - 但在我完成这项工作之前,我无法继续(无需再次使用 Firefox DownloadThemAll -plugin)。想法为什么不起作用?系统管理员是否对 wgets 设置了一些禁令,或者为什么会失败?

我只得到这个 robots.txt 文件:

$ cat robots.txt 
User-agent: *
Disallow: /

User-agent: Googlebot
Allow: /
Disallow: /cgi-bin/

答案1

你的问题出在robots.txt. Wget 查看它并看到

User-agent: *
Disallow: /

您可以使用tell wget 忽略该robots.txt文件:

wget -A.pdf -r -nd -e robots=off  https://noppa.aalto.fi/noppa/kurssi/mat-2.3152/viikkoharjoitukset/

它会起作用的。

相关内容