我想抓取一个包含有用公共数据的网站,但他们不提供 API。我想以更有用的格式发布这些数据。
出于对组织的尊重,我希望在网站流量较低时进行每日抓取。如果我不是运营网站的组织的员工,我如何才能知道网站使用率最低的时间?
我猜我应该在凌晨 2 点运行限制抓取率并希望获得最佳效果,但是有没有更准确的方法?
答案1
查看流量信息需要访问 Webalizer/AWstats(或类似)指标,作为外部人员您将无权访问这些指标。
抓取仅允许您获取网站副本以供离线查看/存档,我们已经有可以执行此操作的网站,例如 waybackmachine.com