如何识别谁在抓取我的网站?

如何识别谁在抓取我的网站?

我有一个电子商务网站,托管在 AWS 上。

我知道有一些工具可以阻止/阻止抓取机器人。但是,是否有可能检测出谁在抓取我的网站?我的意思是,我是否能够检测到请求来自机器人,然后找到机器人的 IP 并使用它来识别正在抓取我网站的服务器?

答案1

可靠的机器人/网络爬虫将使用 User-Agent 标头来标识自己(如果您想指导其行为,则需要遵守 robots.txt),从而易于识别。

恶意机器人(未请求和遵守 robots.txt)仍可能使用 User-agent 标头来标识自己,这样您就可以识别它,然后您可以创建并执行服务器端策略来尝试控制其行为。当使用与真实网络浏览器相同的 User-Agent 字符串时,您无法使用它来识别它。然后可能很难区分机器人发出的请求和真实用户的请求。

一旦您确定哪些请求来自机器人,您的日志还将包含请求来源的 IP 地址。

当您无法轻易识别请求是否来自机器人时,请记住,您通常会公开您的网络内容,并希望它被找到和访问。如果您的服务器无法处理来自机器人的请求,那么您将面临更大的问题,因为它也无法处理合理数量的并发真实访问者。

相关内容