日志中出现奇怪的“GET /api/levels/”和“GET /play/”请求

日志中出现奇怪的“GET /api/levels/”和“GET /play/”请求

我设置了新的 Amazon EC2 实例。一两天内,我开始收到来自“类似 google 机器人” IP(例如 66.249.76.84、66.249.74.152)的奇怪的“GET”请求,大约每 10 秒一个(一些示例):

66.249.74.152 - - [10/Apr/2013:06:05:02 +0000] "GET /play/gp4GbjXBD4B3?sh=04f2fd19ae2dd623e7135d29a1894f03&sh=f172a32c89190e28f9c27123d7c6cf43&sh=04f2fd19ae2dd623e7135d29a1894f03 HTTP/1.1" 404 295 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"    
66.249.76.84 - - [11/Apr/2013:03:51:44 +0000] "GET /api/levels/2ry7ZAh0Y91r HTTP/1.1" 404 295 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"

他们正在检查文件夹中的哈希值,例如

/play/'some_hash_here'
/profile/'some_hash_here'
/level/'some_hash_here'
/api/'some_hash_here'

我在这个网站上从来没有这样的文件夹。但为了解决这个问题,我尝试在 robots.txt 中阻止它们

User-agent: *
Disallow: 
Crawl-delay: 120
Disallow: /play
Disallow: /profile
Disallow: /level

但它根本没有帮助,它只是不读取 robots.txt。为了摆脱它们在我的 error_log 文件中提供的所有混乱,我在 .htaccess 文件中创建了这样的规则

Redirect 301 /play 'some_other_site'
Redirect 301 /level 'some_other_site'
Redirect 301 /profile 'some_other_site'
Redirect 301 /api 'some_other_site'

此外,我发现了一些真正的 google 机器人抓取我网站的痕迹,它的行为非常正常:它只请求与我网站页面有链接的页面。我该如何摆脱这种欺诈扫描?

答案1

这些 IP 是 Google IP,因此很有可能是合法的 GoogleBot 点击。

我不会担心它们。它们不太可能是黑客攻击。相反,最有可能的情况是您的服务器的 IP 以前是另一个拥有这些 URL 的网站的 IP。由于其 IP 地址的浮动性质,这在 Amazon EC2 上相当常见。

答案2

好的。我不知道它是什么,也不知道它想要什么,但我认为我找到了一个解决方案失败2ban包裹。

相关内容