wget：在访问之前，在爬取过程中编辑损坏的链接

2024-6-1 • tag-icon

wget

情况：
我想镜像一个旧网站。该网站位于https://example.com/website/。该网站使用绝对链接指向http://www.example.com/website/。

问题：
无论出于什么原因，wget 都无法到达https://www.example.com（www. 文件夹），连接就会超时 - 不知道为什么，它在浏览器中运行良好（顺便说一下 curl 也不能）。

可能的解决方案：

当 wget 仍在爬行时，让它在跟踪链接之前重写链接。
使 wget 与 www. 文件夹一起工作。

为了使 .www 正常工作，我已经尝试将用户代理设置为 FF：，--header="Accept: text/html" --user-agent="Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:95.0) Gecko/20100101 Firefox/95.0"但没有效果。

因此我需要在爬行时以某种方式重写该网站上的链接。

相关内容