缺少 HTTP referrer 能否识别网络爬虫?

缺少 HTTP referrer 能否识别网络爬虫?

我目前正在尝试分析一个网站的流量。

除了有关请求的资源和时间戳的具体信息外,跟踪系统仅提供请求的 HTTP 引荐来源。

在大多数情况下,引荐来源为空。鉴于相关网站具有 SSL 证书,我是否可以假设此流量主要是来自网络爬虫?

如果引荐数据不够,我可以收集哪些额外的(可访问的)数据来识别网络爬虫?

谢谢

答案1

尝试添加robots.txt你的公共 html 目录并设置上述内容,这主要会指示爬虫程序不要索引您的页面(但这是常规的,机器人仍然可以忽略它)并检查流量是否下降:

    User-agent: * 
    Disallow: /

最好使用HTTP X 机器人使用上述值在您的 Web 服务器中添加标头标签并测试流量:

noindex, noarchive, nosnippet, nofollow

另外,如果 referer 为 null,则意味着直接请求被制造出来。

您可以使用访问日志跟踪即将到来的请求并进行分析,或者最好使用类似的工具Collectd-网页

编辑 NGINX 配置/etc/nginx/nginx.conf以配置访问日志:

access_log <path_to_your_log_dir>/access.log compression buffer=32k;

重新加载 NGINX 配置:

systemctl reload nginx 
OR 
service nginx reload

相关内容