通过 Google 代理进行大量访问

2024-6-1 • tag-icon

我经常从 google 代理获得大量访问。它说这是 Google Favicon bot，我已经通过 host 命令检查过了。User-agent 如下。

"Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.75 Safari/537.36 Google Favicon"

我尝试通过 robot.txt 中的几行来阻止它，但没有成功。

User-agent: Google Favicon
Disallow: /

我有许多网站，每个网站在一个域下都有子域，并且机器人一次访问所有子域。

奇怪的是，日志中 x-forwarded-for 包含我公司的 IP（以及 Google 代理的 IP）。是的，我们使用 Google Analytics 监控这些网站，并且每天手动登录 GA 控制台，但没有人要求 Google 获取所有图标。

有人知道如何阻止它吗？

它是 Google 官方的爬虫之一：

然而，正如 Google 的文档中提到的那样，它是对用户发起的请求的响应（例如，在浏览器中为页面添加书签是由用户发起的），因此它会忽略 robots.txt 指令。

相关内容