我正在尝试使用 wget 获取站点镜像,但发现了一个奇怪的行为。
假设我正在以以下方式镜像一个名为 www.example.com 的内部站点,一切似乎运行正常:
wget -mkE http://www.example.com
但是,由于我需要通过 IP 而不是域名访问服务器,因此我尝试:
wget -mkE -D www.example.com --header "Host: www.example.com" http://IPv4_ADDR
但在这种情况下,它只下载第一页然后退出。
任何想法?
答案1
当您将 wget 与 http 结合使用时,它唯一能确定同一站点上还有其他内容的方式是通过检索到的页面中的链接。根据这些链接的创建方式(绝对或相对),当您通过 IP 地址获取时,wget 可能会认为这些链接是外部的,在这种情况下,它不会跟踪这些链接。