如何从 URL 递归下载网页及其链接内容?

如何从 URL 递归下载网页及其链接内容?

我想用wget递归下载网页。我所说的递归是指它可能指向的所有其他文件也应该被下载。原因是我希望能够合理地离线查看其内容。

我需要下载的网页还链接到同一网站上的其他页面,我希望我也可以下载它们。

可以这样做吗wget?有任何标志吗?

答案1

尝试:

wget -r -np -k -p http://www.site.com/dir/page.html

参数(参见man wget)是:

  • r递归到链接,也检索这些页面(默认最大深度为 5,可以使用 进行设置-l)。
  • np切勿输入父目录(即,不要点击“主页”链接并镜像整个站点;这将阻止ccc您的示例中的上述内容)。
  • k转换相对于本地副本的链接。
  • p获取页面必备条件,例如样式表(这是该np规则的一个例外)。

如果我没记错的话,wget 将创建一个以域命名的目录并将所有内容放入其中,但以防万一尝试从空 PWD 中尝试。

相关内容