首先我来告诉你们我们做什么。
我们实施的措施捕获了很多蜘蛛,但我们不知道漏掉了多少。目前,我们应用了一组明显部分重叠的措施:
监控我们的 robots.txt 文件的请求:然后当然过滤来自同一 IP 地址 + 用户代理的所有其他请求
将用户代理和 IP 地址与已发布的列表进行比较:iab.net 和 user-agents.org 发布了两个列表,这两个列表似乎是用于此目的的最广泛的列表
模式分析:我们当然没有为这些指标预设阈值,但仍然发现它们很有用。我们查看 (i) 页面浏览量作为时间函数(即,点击每个页面上的大量链接,每 200 毫秒即可);(ii) “用户”遍历我们网站的路径,它是否系统化且完整或接近系统化和完整(如遵循回溯算法);以及 (iii) 精确计时的访问(例如,每天凌晨 3 点)。
再次强调,我确信我们正在获得唾手可得的成果,但我有兴趣听取社区的意见。
答案1
这些新闻通讯帖子标记为网络日志分析在
商业Nihuo 的 Web 日志分析器网站页面可能会有阅读价值。