日志文件分析期间过滤蜘蛛/机器人的技术

2024-5-26 • tag-icon

log-files website analytics

日志文件分析期间过滤蜘蛛/机器人的技术

首先我来告诉你们我们做什么。

我们实施的措施捕获了很多蜘蛛，但我们不知道漏掉了多少。目前，我们应用了一组明显部分重叠的措施：

监控我们的 robots.txt 文件的请求：然后当然过滤来自同一 IP 地址 + 用户代理的所有其他请求
将用户代理和 IP 地址与已发布的列表进行比较：iab.net 和 user-agents.org 发布了两个列表，这两个列表似乎是用于此目的的最广泛的列表
模式分析：我们当然没有为这些指标预设阈值，但仍然发现它们很有用。我们查看 (i) 页面浏览量作为时间函数（即，点击每个页面上的大量链接，每 200 毫秒即可）；(ii) “用户”遍历我们网站的路径，它是否系统化且完整或接近系统化和完整（如遵循回溯算法）；以及 (iii) 精确计时的访问（例如，每天凌晨 3 点）。

再次强调，我确信我们正在获得唾手可得的成果，但我有兴趣听取社区的意见。

答案1

这些新闻通讯帖子标记为网络日志分析在
商业Nihuo 的 Web 日志分析器网站页面可能会有阅读价值。

相关内容