如何配置正向代理来保留访问过的网站的历史镜像?

如何配置正向代理来保留访问过的网站的历史镜像?

我正在抓取有关公务员日历的信息。这些都是公开的纯文本信息。我想保留我正在抓取的原始 HTML 文件的副本,以备历史之用,也以防出现错误而需要重新运行抓取工具。

对于 Squid 或 Apache Traffic Server 等正向代理来说,这听起来是个不错的用法。但是,我在他们的文档中找不到同时实现以下两种功能的方法:

  • 保留缓存页面的永久历史记录
  • 访问缓存页面的旧版本(类似 Wayback Machine)

wget有人知道这是否可行吗?我可以使用或镜像页面httrack,但前向缓存是更好的解决方案,因为缓存过程由抓取工具本身驱动。

谢谢!

答案1

  • 如果网站可通过 HTTP 访问,则可以使用 Squid 和一些脚本轻松完成,这些脚本将跟踪 Squid 访问日志并将适当的内容存储在某处,wget例如使用普通的
  • 如果网站只能通过 HTTPS 访问,那么就会更加棘手
    • 在简单的情况下,不可能看到正在访问的内容,因为代理只知道它连接到的域,而不是完整的 URL。
    • 可以创建所谓的透明代理设置,这需要设置 DNS 和一些 TLS 证书,这些证书需要得到浏览器(或一个通用 CA)的信任

相关内容