为什么 wget 在尝试镜像站点时会跳过文件

为什么 wget 在尝试镜像站点时会跳过文件

我在这个网站上运行了 wget:http://demo.codestag.com/geeklove/但它只返回一个index.html

wget --recursive --no-clobber --page-requisites --html-extension --convert-links --restrict-file-names=windows --domains --no-parent http://demo.codestag.com/geeklove

我尝试像这样欺骗用户代理:http://www.askapache.com/linux/wget-header-trick.html#Testing_Wget_Trick但还是不行。

当我使用 --debug 选项时,它显示它跳过了所有其他页面。

答案1

选项--domains指定要遵循的域列表。因为在此选项之后您没有指定任何内容,所以 wget 仅下载那些直接指定的文件。

如果您删除此选项或将其替换为--domains demo.codestag.com,则 wget 仍将拒绝下载更多文件,因为机器人.txt在此服务器上。要忽略此文件,您必须指定-e robots=off.

-d如果您遇到更多问题,指定( )总是有帮助的,--debug以查看 wget 遇到的问题。

相关内容