通过“Feedfetcher-Google”和 Google 代理 IP 路由的恶意请求

通过“Feedfetcher-Google”和 Google 代理 IP 路由的恶意请求

我们正面临一个特殊情况,即有人通过“Google 代理”IP 地址向我们的网站发出恶意/未经授权的请求。

有人正在使用 Google 服务器“代理”我们的网站并提供所有相同的内容,剥离脚本并添加他们自己的广告。

请求用户代理:

Mozilla/5.0 (compatible) Feedfetcher-Google; (+http://www.google.com/feedfetcher.html)

请求 IP 地址:

Reverse IP (PTR)    google-proxy-66-102-9-1.google.com
ASN 15169 (GOOGLE)
ISP / Organization  Google Proxy
66.102.9.1
66.102.9.29
66.102.9.25
66.102.9.6
66.249.84.235

我们想简单地阻止这个用户代理,但不幸的是它也被谷歌用于官方抓取我们的 RSS 提要。

我已经进行了大量挖掘,但无法确定

  • 这些请求是如何产生的
  • 这些请求独有的任何指纹在官方 Google Feed 请求中不存在

我尝试让一些 Google 服务生成类似的请求,但没有一个完全匹配。Feedburner 和 Google Drive 都使用不同的用户代理。

我读到过关于某些 Chrome RSS 阅读器可能是用于生成此请求的潜在“代理”的文章,但我无法验证。

如果您能提供任何帮助来确定这些请求的潜在来源,或者提供有关如何阻止恶意请求同时仍允许“良好”请求的建议,我们将不胜感激。

更新 [2023-06-13]: 我发现了这个网站管理员 Stackchange帖子概述了类似的问题,但具体细节不太合适,并且没有发现可以发送这些请求的合法谷歌服务。

进一步检查 google-proxy IP 地址发送的请求后,我发现有些请求会在查询字符串中附加 gzip(gfe)。“gzip(gfe)”表示浏览器支持 gzip 压缩方法,并且正在使用 Google Frontend for Embedded (GFE) 服务。GFE 是 Google 提供的一项服务,通过缓存和提供静态内容来帮助网站更快地加载。当浏览器请求由 GFE 缓存的网页时,请求将发送到 GFE 而不是原始网站。然后,GFE 将压缩内容并将其返回给浏览器,这有助于提高页面的加载速度。但是,此服务包含 X-Forwarded-For 标头,因此您可以识别请求的真实 IP,但仍然无法解决恶意请求如何发送或如何可靠地阻止它们的问题。

相关内容