wget镜像站点+其他域的资源

wget镜像站点+其他域的资源

我正在尝试下载一个网站,以便可以离线浏览,所以我想要 html、图像、css、javascript 等。

问题是图像并不都托管在与网站相同的域中,CSS 和 JavaScript 也是如此。一些图像来自 imgur,其他图像来自其他文件共享网站。简而言之,有很多域拥有该站点使用的资源。

我如何才能从单个域下载 html,但从任何域获取该 html 使用的资源?

答案1

您应该使用一组参数主机跨越:

主要是:

  • -H遍历到指定主机之外的其他主机
  • -D指定要包含的域
  • --exclude-domains指定要排除的域

例如:

wget -rH --exclude-domains flickr.com myownsite.com

相关内容