情况:
我想镜像一个旧网站。该网站位于https://example.com/website/
。该网站使用绝对链接指向http://www.example.com/website/
。
问题:
无论出于什么原因,wget 都无法到达https://www.example.com
(www. 文件夹),连接就会超时 - 不知道为什么,它在浏览器中运行良好(顺便说一下 curl 也不能)。
可能的解决方案:
- 当 wget 仍在爬行时,让它在跟踪链接之前重写链接。
- 使 wget 与 www. 文件夹一起工作。
为了使 .www 正常工作,我已经尝试将用户代理设置为 FF:,--header="Accept: text/html" --user-agent="Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:95.0) Gecko/20100101 Firefox/95.0"
但没有效果。
因此我需要在爬行时以某种方式重写该网站上的链接。