网站能否根据除了遍历速度之外的其他因素区分网络抓取工具和合法用户?

网站能否根据除了遍历速度之外的其他因素区分网络抓取工具和合法用户?

如果我降低网络抓取工具的速度以匹配人类的速度,第三方是否能够区分它们?网站还使用哪些其他标准来区分用户和抓取工具

答案1

网站的标准有很多可以用来识别可能的爬虫。有些爬虫比其他爬虫更容易出现误报。

  • 用户代理。许多抓取工具都有一个User-Agent:标头,可以方便可靠地识别它们。以下许多特征也可以与用户代理相关联,以User-Agent:检查假定的用户代理的行为是否实际上与它可能试图显示的图形浏览器的预期行为相匹配。
  • IP 范围。例如,在 Google 或 Amazon 云 IP 地址空间之外运行的机器人可能是自动化的(或 VPN 出口节点)。
  • 遍历时间。一个简单的机器人会以固定的“点击”间隔访问站点内部链接,或者以很小的变化来伪装成真正的用户。
  • 遍历顺序。一个简单的机器人将按照它发现的顺序访问站点内部链接,而用户只会以不太可预测的顺序访问少量链接。
  • 图片下载。使用图形浏览器的人会表现出某种可预测的并行连接突发,这也取决于可用带宽和浏览器的配置。但许多机器人一次只会获取一个页面,甚至可能完全绕过图形。
  • JavaScript 行为。启用 JavaScript 的真实浏览器将执行 JavaScript 负载。一些抓取机器人试图模拟此行为,但许多机器人并没有这样做,而且那些这样做的机器人通常做得并不完美。
  • 替代路径。HTML 源代码中可能包含某些部分中的链接,这些部分在特定浏览器的特定配置下不会显示;但普通机器人会访问隐藏和显示的链接。

相关内容