httrack 因反爬虫保护而无法下载网站

2024-11-18 • tag-icon

我正在尝试为无法访问其托管登录信息的人克隆整个网站（出于某些原因我不会详述）并且需要所有内容的本地副本： https://www.cowpatch.com/

它看起来像是用 wordpress 创建的。

我在 Mac 的终端上使用 httrack。这是我运行的命令：

httrack https://www.cowpatch.com/  -O "/Users/abe/websites/cowpatch"

它获取了 index.html，但似乎有某种反爬虫机制阻止它获取网站上的其他页面。下载的所有其他 HTML 页面都显示一条消息，内容如下：

反爬虫保护正在检查您的浏览器和 IP……是否存在垃圾邮件机器人。3 秒后，您将自动重定向到请求的页面。请勿关闭此页面。请等待 3 秒钟才能转到该页面。CleanTalk 反垃圾邮件

我的看法是，由于 httrack 没有等待这三秒钟，它最终会克隆这个反爬虫重定向页面，而不是爬取到正确的 URL。

有解决方法吗？我可以使用一些选项来解决这个问题吗？我一直在查看 httrack 用户指南，但到目前为止还没有找到。

相关内容