我想用wget
递归下载网页。我所说的递归是指它可能指向的所有其他文件也应该被下载。原因是我希望能够合理地离线查看其内容。
我需要下载的网页还链接到同一网站上的其他页面,我希望我也可以下载它们。
可以这样做吗wget
?有任何标志吗?
答案1
尝试:
wget -r -np -k -p http://www.site.com/dir/page.html
参数(参见man wget
)是:
r
递归到链接,也检索这些页面(默认最大深度为 5,可以使用 进行设置-l
)。np
切勿输入父目录(即,不要点击“主页”链接并镜像整个站点;这将阻止ccc
您的示例中的上述内容)。k
转换相对于本地副本的链接。p
获取页面必备条件,例如样式表(这是该np
规则的一个例外)。
如果我没记错的话,wget 将创建一个以域命名的目录并将所有内容放入其中,但以防万一尝试从空 PWD 中尝试。