如何配置正向代理来保留访问过的网站的历史镜像？

2024-6-2 • tag-icon

squid mirror scraping apache-traffic-server

如何配置正向代理来保留访问过的网站的历史镜像？

我正在抓取有关公务员日历的信息。这些都是公开的纯文本信息。我想保留我正在抓取的原始 HTML 文件的副本，以备历史之用，也以防出现错误而需要重新运行抓取工具。

对于 Squid 或 Apache Traffic Server 等正向代理来说，这听起来是个不错的用法。但是，我在他们的文档中找不到同时实现以下两种功能的方法：

保留缓存页面的永久历史记录
访问缓存页面的旧版本（类似 Wayback Machine）

wget有人知道这是否可行吗？我可以使用或镜像页面httrack，但前向缓存是更好的解决方案，因为缓存过程由抓取工具本身驱动。

谢谢！

答案1

如果网站可通过 HTTP 访问，则可以使用 Squid 和一些脚本轻松完成，这些脚本将跟踪 Squid 访问日志并将适当的内容存储在某处，wget例如使用普通的
如果网站只能通过 HTTPS 访问，那么就会更加棘手
- 在简单的情况下，不可能看到正在访问的内容，因为代理只知道它连接到的域，而不是完整的 URL。
- 可以创建所谓的透明代理设置，这需要设置 DNS 和一些 TLS 证书，这些证书需要得到浏览器（或一个通用 CA）的信任

相关内容