我在这个网站上运行了 wget:http://demo.codestag.com/geeklove/但它只返回一个index.html
wget --recursive --no-clobber --page-requisites --html-extension --convert-links --restrict-file-names=windows --domains --no-parent http://demo.codestag.com/geeklove
我尝试像这样欺骗用户代理:http://www.askapache.com/linux/wget-header-trick.html#Testing_Wget_Trick但还是不行。
当我使用 --debug 选项时,它显示它跳过了所有其他页面。
答案1
选项--domains
指定要遵循的域列表。因为在此选项之后您没有指定任何内容,所以 wget 仅下载那些直接指定的文件。
如果您删除此选项或将其替换为--domains demo.codestag.com
,则 wget 仍将拒绝下载更多文件,因为机器人.txt在此服务器上。要忽略此文件,您必须指定-e robots=off
.
-d
如果您遇到更多问题,指定( )总是有帮助的,--debug
以查看 wget 遇到的问题。