有没有办法告诉网络爬虫/机器人每秒/分钟/等等的请求数量限制

有没有办法告诉网络爬虫/机器人每秒/分钟/等等的请求数量限制

我正在考虑一种类似于 robots.txt 的方法,这种方法可供优秀的机器人抓取网站。在 robots.txt 中,我可以定义 User-agent、Allow 和 Disallow。

我的目标是将有关请求率限制的消息传递给机器人,例如说它们不允许每秒、每分钟等超过 xxx 个请求。

我知道如何设置硬性限制,但雇佣的目标并不是阻止他们。

答案1

您需要检查机器人的主页以了解“限制爬行”的机制(有用的搜索词)。

例如,https://developers.google.com/search/docs/crawling-indexing/reduce-crawl-rate是 Google 关于如何控制 Googlebot 抓取速度的指南。

有些机器人也能理解非官方Crawl-Delay指令robots.txt。更多详细信息请参阅https://websiteseochecker.com/blog/robots-txt-crawl-delay-why-we-use-crawl-delay-getting-started/

相关内容