如何识别谁在抓取我的网站？

Question

可靠的机器人/网络爬虫将使用 User-Agent 标头来标识自己（如果您想指导其行为，则需要遵守 robots.txt），从而易于识别。

恶意机器人（未请求和遵守 robots.txt）仍可能使用 User-agent 标头来标识自己，这样您就可以识别它，然后您可以创建并执行服务器端策略来尝试控制其行为。当使用与真实网络浏览器相同的 User-Agent 字符串时，您无法使用它来识别它。然后可能很难区分机器人发出的请求和真实用户的请求。

一旦您确定哪些请求来自机器人，您的日志还将包含请求来源的 IP 地址。

当您无法轻易识别请求是否来自机器人时，请记住，您通常会公开您的网络内容，并希望它被找到和访问。如果您的服务器无法处理来自机器人的请求，那么您将面临更大的问题，因为它也无法处理合理数量的并发真实访问者。

Answer 1

可靠的机器人/网络爬虫将使用 User-Agent 标头来标识自己（如果您想指导其行为，则需要遵守 robots.txt），从而易于识别。

恶意机器人（未请求和遵守 robots.txt）仍可能使用 User-agent 标头来标识自己，这样您就可以识别它，然后您可以创建并执行服务器端策略来尝试控制其行为。当使用与真实网络浏览器相同的 User-Agent 字符串时，您无法使用它来识别它。然后可能很难区分机器人发出的请求和真实用户的请求。

一旦您确定哪些请求来自机器人，您的日志还将包含请求来源的 IP 地址。

当您无法轻易识别请求是否来自机器人时，请记住，您通常会公开您的网络内容，并希望它被找到和访问。如果您的服务器无法处理来自机器人的请求，那么您将面临更大的问题，因为它也无法处理合理数量的并发真实访问者。

如何识别谁在抓取我的网站？

答案1

相关内容