缺少 HTTP referrer 能否识别网络爬虫？

Question

尝试添加robots.txt你的公共 html 目录并设置上述内容，这主要会指示爬虫程序不要索引您的页面（但这是常规的，机器人仍然可以忽略它）并检查流量是否下降：

    User-agent: * 
    Disallow: /

最好使用HTTP X 机器人使用上述值在您的 Web 服务器中添加标头标签并测试流量：

noindex, noarchive, nosnippet, nofollow

另外，如果 referer 为 null，则意味着直接请求被制造出来。

您可以使用访问日志跟踪即将到来的请求并进行分析，或者最好使用类似的工具Collectd-网页。

编辑 NGINX 配置/etc/nginx/nginx.conf以配置访问日志：

access_log <path_to_your_log_dir>/access.log compression buffer=32k;

重新加载 NGINX 配置：

systemctl reload nginx 
OR 
service nginx reload

Answer 1