我正在抓取有关公务员日历的信息。这些都是公开的纯文本信息。我想保留我正在抓取的原始 HTML 文件的副本,以备历史之用,也以防出现错误而需要重新运行抓取工具。
对于 Squid 或 Apache Traffic Server 等正向代理来说,这听起来是个不错的用法。但是,我在他们的文档中找不到同时实现以下两种功能的方法:
- 保留缓存页面的永久历史记录
- 访问缓存页面的旧版本(类似 Wayback Machine)
wget
有人知道这是否可行吗?我可以使用或镜像页面httrack
,但前向缓存是更好的解决方案,因为缓存过程由抓取工具本身驱动。
谢谢!
答案1
- 如果网站可通过 HTTP 访问,则可以使用 Squid 和一些脚本轻松完成,这些脚本将跟踪 Squid 访问日志并将适当的内容存储在某处,
wget
例如使用普通的 - 如果网站只能通过 HTTPS 访问,那么就会更加棘手
- 在简单的情况下,不可能看到正在访问的内容,因为代理只知道它连接到的域,而不是完整的 URL。
- 可以创建所谓的透明代理设置,这需要设置 DNS 和一些 TLS 证书,这些证书需要得到浏览器(或一个通用 CA)的信任