我目前正在尝试分析一个网站的流量。
除了有关请求的资源和时间戳的具体信息外,跟踪系统仅提供请求的 HTTP 引荐来源。
在大多数情况下,引荐来源为空。鉴于相关网站具有 SSL 证书,我是否可以假设此流量主要是来自网络爬虫?
如果引荐数据不够,我可以收集哪些额外的(可访问的)数据来识别网络爬虫?
谢谢
答案1
尝试添加robots.txt你的公共 html 目录并设置上述内容,这主要会指示爬虫程序不要索引您的页面(但这是常规的,机器人仍然可以忽略它)并检查流量是否下降:
User-agent: *
Disallow: /
最好使用HTTP X 机器人使用上述值在您的 Web 服务器中添加标头标签并测试流量:
noindex, noarchive, nosnippet, nofollow
另外,如果 referer 为 null,则意味着直接请求被制造出来。
您可以使用访问日志跟踪即将到来的请求并进行分析,或者最好使用类似的工具Collectd-网页。
编辑 NGINX 配置/etc/nginx/nginx.conf
以配置访问日志:
access_log <path_to_your_log_dir>/access.log compression buffer=32k;
重新加载 NGINX 配置:
systemctl reload nginx
OR
service nginx reload