httrack 因反爬虫保护而无法下载网站

httrack 因反爬虫保护而无法下载网站

我正在尝试为无法访问其托管登录信息的人克隆整个网站(出于某些原因我不会详述)并且需要所有内容的本地副本: https://www.cowpatch.com/

它看起来像是用 wordpress 创建的。

我在 Mac 的终端上使用 httrack。这是我运行的命令:

httrack https://www.cowpatch.com/  -O "/Users/abe/websites/cowpatch"

它获取了 index.html,但似乎有某种反爬虫机制阻止它获取网站上的其他页面。下载的所有其他 HTML 页面都显示一条消息,内容如下:

反爬虫保护正在检查您的浏览器和 IP……是否存在垃圾邮件机器人。3 秒后,您将自动重定向到请求的页面。请勿关闭此页面。请等待 3 秒钟才能转到该页面。CleanTalk 反垃圾邮件

我的看法是,由于 httrack 没有等待这三秒钟,它最终会克隆这个反爬虫重定向页面,而不是爬取到正确的 URL。

有解决方法吗?我可以使用一些选项来解决这个问题吗?我一直在查看 httrack 用户指南,但到目前为止还没有找到。

相关内容