通过 Google 代理进行大量访问

通过 Google 代理进行大量访问

我经常从 google 代理获得大量访问。它说这是 Google Favicon bot,我已经通过 host 命令检查过了。User-agent 如下。

"Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.75 Safari/537.36 Google Favicon"

我尝试通过 robot.txt 中的几行来阻止它,但没有成功。

User-agent: Google Favicon
Disallow: /

我有许多网站,每个网站在一个域下都有子域,并且机器人一次访问所有子域。

奇怪的是,日志中 x-forwarded-for 包含我公司的 IP(以及 Google 代理的 IP)。是的,我们使用 Google Analytics 监控这些网站,并且每天手动登录 GA 控制台,但没有人要求 Google 获取所有图标。

有人知道如何阻止它吗?

答案1

它是 Google 官方的爬虫之一:

https://developers.google.com/search/docs/advanced/crawling/overview-google-crawlers

然而,正如 Google 的文档中提到的那样,它是对用户发起的请求的响应(例如,在浏览器中为页面添加书签是由用户发起的),因此它会忽略 robots.txt 指令。

相关内容