我正在尝试镜像一个具有页面的网站:
http://www.site.com/news
和内容:
http://www.site.com/news/36-news/news-one
http://www.site.com/news/37-news/news-two
http://www.site.com/news/38-news/another-news-here
这就是我正在使用的
wget -m -Dsite.com -e robots=off -r -q -R gif,png,jpg,jpeg,GIF,PNG,JPG,JPEG \
-t 10 http://www.site.com &
当 wget 运行时,它将创建一个名为news
.
我无法下载内容,因为同名文件news
已存在(我正在运行 Ubuntu:目录不能与文件同名)
wget
以下是在没有运行时出现的消息-q
www.site.com/news/36-news:不是目录
www.site.com/news/36-news/news-one:不是目录
答案1
你可以尝试一下--no-clobber
。但是,在我看来,您可能更适合功能更全面的东西,例如httrack。这是命令行选项的手册:http://www.httrack.com/html/fcguide.html
您可以像这样为所有目录添加前缀:
httrack "http://www.site.com/news" -O /tmp/site -N "my%p/%n.%t"
因此,完整的命令与您的类似,可能类似于:
httrack "http://www.site.com/news" -O /tmp/site -N "my%p/%n.%t" --retries=10 --ext-depth=0 --robots=0 +*.gif +*.png +*.jpg +*.jpeg +*.GIF +*.PNG +*.JPG +*.JPEG