我经常从 google 代理获得大量访问。它说这是 Google Favicon bot,我已经通过 host 命令检查过了。User-agent 如下。
"Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.75 Safari/537.36 Google Favicon"
我尝试通过 robot.txt 中的几行来阻止它,但没有成功。
User-agent: Google Favicon
Disallow: /
我有许多网站,每个网站在一个域下都有子域,并且机器人一次访问所有子域。
奇怪的是,日志中 x-forwarded-for 包含我公司的 IP(以及 Google 代理的 IP)。是的,我们使用 Google Analytics 监控这些网站,并且每天手动登录 GA 控制台,但没有人要求 Google 获取所有图标。
有人知道如何阻止它吗?
答案1
它是 Google 官方的爬虫之一:
https://developers.google.com/search/docs/advanced/crawling/overview-google-crawlers
然而,正如 Google 的文档中提到的那样,它是对用户发起的请求的响应(例如,在浏览器中为页面添加书签是由用户发起的),因此它会忽略 robots.txt 指令。