在 Apache 上阻止爬虫

在 Apache 上阻止爬虫

我正在尝试阻止 Apache 上的爬虫

    <Directory /to/my/site/>
        Options Indexes FollowSymLinks
        AllowOverride All
        Order deny,allow
        deny from 18.*.*.*
        deny from 35.*.*.*
        deny from *.us-west-2.compute.amazonaws.com
        deny from *.*.compute.amazonaws.com
        Allow from all
    </Directory>

但是这似乎无法阻止来自任何这些 IP 的流量。我遗漏了什么?

答案1

首先你应该尝试添加一个robots.txt到您的网页来阻止礼貌的爬虫。

您的Deny语句不起作用,因为您使用了不受支持的通配符语法(参见Apache 的文档)。指令应为:

Deny from 18 35
Deny from .compute.amazonaws.com

相关内容