日志文件分析期间过滤蜘蛛/机器人的技术

日志文件分析期间过滤蜘蛛/机器人的技术

首先我来告诉你们我们做什么。

我们实施的措施捕获了很多蜘蛛,但我们不知道漏掉了多少。目前,我们应用了一组明显部分重叠的措施:

  1. 监控我们的 robots.txt 文件的请求:然后当然过滤来自同一 IP 地址 + 用户代理的所有其他请求

  2. 将用户代理和 IP 地址与已发布的列表进行比较:iab.net 和 user-agents.org 发布了两个列表,这两个列表似乎是用于此目的的最广泛的列表

  3. 模式分析:我们当然没有为这些指标预设阈值,但仍然发现它们很有用。我们查看 (i) 页面浏览量作为时间函数(即,点击每个页面上的大量链接,每 200 毫秒即可);(ii) “用户”遍历我们网站的路径,它是否系统化且完整或接近系统化和完整(如遵循回溯算法);以及 (iii) 精确计时的访问(例如,每天凌晨 3 点)。

再次强调,我确信我们正在获得唾手可得的成果,但我有兴趣听取社区的意见。

答案1

这些新闻通讯帖子标记为网络日志分析
商业Nihuo 的 Web 日志分析器网站页面可能会有阅读价值。

相关内容