![有没有办法告诉网络爬虫/机器人每秒/分钟/等等的请求数量限制](https://linux22.com/image/783250/%E6%9C%89%E6%B2%A1%E6%9C%89%E5%8A%9E%E6%B3%95%E5%91%8A%E8%AF%89%E7%BD%91%E7%BB%9C%E7%88%AC%E8%99%AB%2F%E6%9C%BA%E5%99%A8%E4%BA%BA%E6%AF%8F%E7%A7%92%2F%E5%88%86%E9%92%9F%2F%E7%AD%89%E7%AD%89%E7%9A%84%E8%AF%B7%E6%B1%82%E6%95%B0%E9%87%8F%E9%99%90%E5%88%B6.png)
我正在考虑一种类似于 robots.txt 的方法,这种方法可供优秀的机器人抓取网站。在 robots.txt 中,我可以定义 User-agent、Allow 和 Disallow。
我的目标是将有关请求率限制的消息传递给机器人,例如说它们不允许每秒、每分钟等超过 xxx 个请求。
我知道如何设置硬性限制,但雇佣的目标并不是阻止他们。
答案1
您需要检查机器人的主页以了解“限制爬行”的机制(有用的搜索词)。
例如,https://developers.google.com/search/docs/crawling-indexing/reduce-crawl-rate是 Google 关于如何控制 Googlebot 抓取速度的指南。
有些机器人也能理解非官方Crawl-Delay
指令robots.txt
。更多详细信息请参阅https://websiteseochecker.com/blog/robots-txt-crawl-delay-why-we-use-crawl-delay-getting-started/。