Linux CentOS 6-64
我应该向 wget 添加什么内容才能使其仅读取请求的域上的链接而不转到正在下载的站点内提到的其他域?
例如:镜像 site1.com 时,它将转到 site2.com,因为 site1.com 内有一个指向 site2.com 的链接
因为我不知道他会找到哪些 site2.com、site3.com 等,所以我认为使用域排除选项并不适合。
是否有一个选项可以让它只读取 site.com 链接?
谢谢
答案1
man wget
说
-D domain-list
--domains=domain-list
Set domains to be followed. domain-list is a comma-separated list
of domains. Note that it does not turn on -H.
另请注意GNU wget 跨主机说
Wget 的递归检索通常拒绝访问您在命令行中指定的主机以外的主机。这是一个合理的默认设置;如果没有它,每次检索都有可能将您的 Wget 变成一个小型版的 google。
所以也许您出于某种原因使用了 -H?
限制跨越某些域 - '-D'
“-D”选项允许您指定要跟踪的域,从而将递归限制为仅属于这些域的主机。显然,这只有与“-H”结合使用才有意义。一个典型的例子是下载“www.example.com”的内容,但允许从“images.example.com”下载,等等:
wget -rH -Dexample.com http://www.example.com/