我正在尝试下载一个网站,以便可以离线浏览,所以我想要 html、图像、css、javascript 等。
问题是图像并不都托管在与网站相同的域中,CSS 和 JavaScript 也是如此。一些图像来自 imgur,其他图像来自其他文件共享网站。简而言之,有很多域拥有该站点使用的资源。
我如何才能从单个域下载 html,但从任何域获取该 html 使用的资源?
答案1
您应该使用一组参数主机跨越:
主要是:
-H
遍历到指定主机之外的其他主机-D
指定要包含的域--exclude-domains
指定要排除的域
例如:
wget -rH --exclude-domains flickr.com myownsite.com