如何镜像/代理网站?

如何镜像/代理网站?

我正在做一个项目,想镜像一个网站。这个想法(我的测试用例)是,原始网站将无法跟踪用户点击和广告点击。

到目前为止我发现的是GitHub 上的指南/存储库

我正在 AWS 上使用 Ubuntu 运行 EC2 实例。

我现在的问题是:如何镜像网站以及它实际上是如何工作的?

答案1

  • 镜像意味着您将在另一台机器上检索所有网站页面(或您关心的子集)。在这里,您可能会安装一个网络服务器来提供您镜像的页面,并且客户端必须连接到您的网站,而不是原始网站。

  • 使用代理意味着您在服务器中配置代理软件(apache、nginx、squid、varnish 等)。在这种情况下,客户端也必须连接到您的服务器,并且您的服务器透明地将请求传递到原始服务器并返回到客户端,可选择存储缓存副本以供以后重复使用。

现在,如果您想镜像它,我首先想到的是wget,有关更多信息,请查看此回复:https://superuser.com/questions/352397/download-entire-site-for-offline-usage-with-wget- including-external-image-serve

如果您想要反向代理它,则如何操作取决于您使用的软件。

当心原始网站中嵌入的 javascript/Flash,可能会有 XHR 请求或类似内容指向具有明显隐私/安全考虑的原始网站。

相关内容