wget:在访问之前,在爬取过程中编辑损坏的链接

wget:在访问之前,在爬取过程中编辑损坏的链接

情况:
我想镜像一个旧网站。该网站位于https://example.com/website/。该网站使用绝对链接指向http://www.example.com/website/

问题:
无论出于什么原因,wget 都无法到达https://www.example.com(www. 文件夹),连接就会超时 - 不知道为什么,它在浏览器中运行良好(顺便说一下 curl 也不能)。

可能的解决方案:

  • 当 wget 仍在爬行时,让它在跟踪链接之前重写链接。
  • 使 wget 与 www. 文件夹一起工作。

为了使 .www 正常工作,我已经尝试将用户代理设置为 FF:,--header="Accept: text/html" --user-agent="Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:95.0) Gecko/20100101 Firefox/95.0"但没有效果。

因此我需要在爬行时以某种方式重写该网站上的链接。

相关内容