我正在尝试阻止 Apache 上的爬虫
<Directory /to/my/site/>
Options Indexes FollowSymLinks
AllowOverride All
Order deny,allow
deny from 18.*.*.*
deny from 35.*.*.*
deny from *.us-west-2.compute.amazonaws.com
deny from *.*.compute.amazonaws.com
Allow from all
</Directory>
但是这似乎无法阻止来自任何这些 IP 的流量。我遗漏了什么?
答案1
首先你应该尝试添加一个robots.txt到您的网页来阻止礼貌的爬虫。
您的Deny
语句不起作用,因为您使用了不受支持的通配符语法(参见Apache 的文档)。指令应为:
Deny from 18 35
Deny from .compute.amazonaws.com