我正在使用以下命令来镜像站点:
wget -r -p -E -N -l 10 -k -nH -H -Dfoo.com,www.foo.com foo.com
我遇到的问题是,foo.com 上的某个地方有指向以 foo.com 结尾的域名(例如 newfoo.com)的链接,而 wget 也镜像了该网站。是否可以将域名限制为完全匹配?我不想抓取 www 以外的任何子域名。
答案1
不幸的是,wget 在抓取网站时会对接受的域名进行软匹配。例如,以下所有域名都会与 foo.com 匹配:
- barfoo.com
- bar.foo.com
- 任何东西都可以.gohere.foo.com
我实际上创建了一个修补为 wget 1.15 添加一个选项以启用此严格匹配行为。使用此补丁,整个域必须完全匹配。它不会影响其他域列表,如排除域等。