使用 IIS 7.5 和 8.0 阻止机器人

Question 1

通常情况下，您使用 robots.txt。它适用于所有行为良好的机器人。

对于行为不当的机器人，您通常无能为力。您可以在防火墙或网络服务器中限制连接数或带宽，但主要机器人通常会使用多个 IP 地址。基于用户代理字符串进行限制通常不是一个好主意，因为这些对于机器人来说很容易欺骗，并且不关心 robots.txt 的机器人也倾向于欺骗用户代理字符串。它在特定情况下有效，即机器人发送正确的用户代理，但不遵守 robots.txt。

编辑：如果您确实想根据用户代理进行阻止，而不是将其推回防火墙或类似程序，我认为最简单的方法是使用 URLScan。您可以编写一条如下所示的规则：

[Options]
 RuleList=DenyYandex

[DenyYandex]
 DenyDataSection=Agents
 ScanHeaders=User-Agent

[Agents]
 Yandex

Answer

通常情况下，您使用 robots.txt。它适用于所有行为良好的机器人。

对于行为不当的机器人，您通常无能为力。您可以在防火墙或网络服务器中限制连接数或带宽，但主要机器人通常会使用多个 IP 地址。基于用户代理字符串进行限制通常不是一个好主意，因为这些对于机器人来说很容易欺骗，并且不关心 robots.txt 的机器人也倾向于欺骗用户代理字符串。它在特定情况下有效，即机器人发送正确的用户代理，但不遵守 robots.txt。

编辑：如果您确实想根据用户代理进行阻止，而不是将其推回防火墙或类似程序，我认为最简单的方法是使用 URLScan。您可以编写一条如下所示的规则：

[Options]
 RuleList=DenyYandex

[DenyYandex]
 DenyDataSection=Agents
 ScanHeaders=User-Agent

[Agents]
 Yandex

Question 2

我知道这是一个老问题，但是在 IIS 7.5 中，如果您使用请求过滤，则可以通过用户代理拒绝。

在 IIS 中，转到要应用过滤器的网站，然后在右侧窗格中单击请求过滤图标。（您可能必须通过服务器管理器启用此功能）。

点击规则选项卡，然后在最右侧列表中选择“添加过滤规则”

给它起个名字，然后在扫描标题部分，输入“User-Agent”。

您可以添加任何特定文件类型来阻止适用于，或者您可以将其留空以使其适用于所有文件类型。

在拒绝字符串，输入您要阻止的所有用户代理字符串。对于这个问题，您可以在此处输入“Yandex”。

我使用 chrome 确认了这些更改用户代理切换器扩大。

Answer