网站由托管在 amazon ec2 上的匿名机器人抓取。此机器人不遵守 robots.txt 并给网络服务器造成高负载,因此我添加了检查,如果请求的反向 IP 以“amazonaws.com”结尾,则服务器立即返回 403 页面。
这解决了问题,但可能会引发其他问题?ec2 可能用于某些“好”机器人,这会导致它们的访问问题。您能举出此类问题的例子吗?
答案1
Amazon EC2 是一个托管平台。他们不直接控制人们托管什么。如果你封锁整个 *.amazonaws.com 域,那么你将停止使用 EC2 访问任何托管服务。这在当今相当常见。
答案2
查看这个类似的问题:它展示了如何直接在 .htaccess 文件中按用户代理进行阻止。这对于不遵守 robots.txt 规则的机器人很有用...
您可以将其放入 httpd.conf 文件或 .htaccess 中。
祝你好运。