如何获取具有相同页面和内容名称的网站?

如何获取具有相同页面和内容名称的网站?

我正在尝试镜像一个具有页面的网站:

http://www.site.com/news

和内容:

http://www.site.com/news/36-news/news-one
http://www.site.com/news/37-news/news-two
http://www.site.com/news/38-news/another-news-here

这就是我正在使用的

wget -m -Dsite.com -e robots=off -r -q -R gif,png,jpg,jpeg,GIF,PNG,JPG,JPEG \
    -t 10 http://www.site.com &

当 wget 运行时,它将创建一个名为news.

我无法下载内容,因为同名文件news已存在(我正在运行 Ubuntu:目录不能与文件同名)

wget以下是在没有运行时出现的消息-q

www.site.com/news/36-news:不是目录
www.site.com/news/36-news/news-one:不是目录

答案1

你可以尝试一下--no-clobber。但是,在我看来,您可能更适合功能更全面的东西,例如httrack。这是命令行选项的手册:http://www.httrack.com/html/fcguide.html

您可以像这样为所有目录添加前缀:

httrack "http://www.site.com/news" -O /tmp/site -N "my%p/%n.%t"

因此,完整的命令与您的类似,可能类似于:

httrack "http://www.site.com/news" -O /tmp/site -N "my%p/%n.%t" --retries=10 --ext-depth=0 --robots=0 +*.gif +*.png +*.jpg +*.jpeg +*.GIF +*.PNG +*.JPG +*.JPEG

相关内容