我的网络中有多个网站/24
,Google 会定期抓取这些网站。通常情况下,这没什么问题。但是,当 Google 开始同时抓取所有网站时,支持此 IP 块的一小部分服务器可能会受到相当大的负载影响。
使用 Google 网站管理员工具,您可以限制特定域上的 Googlebot 的速率,但我尚未找到限制跨 IP 网络的 bot 的方法。有人有这方面的经验吗?您是如何解决的?
答案1
如果您运行 BGP,您可以简单地对 AS15169(AS-GOOGLE)进行速率限制,但手动执行很容易出错。
答案2
我发现这些笔记很有趣,值得研究
- 获取智能 robots.txt和别的robots.txt那里发帖
- 一篇关于谷歌的肮脏小秘密由受 Google 机器人困扰的人撰写
- Google 网络爬虫
答案3
你可以去谷歌创建一个账户网站管理员工具然后你就可以控制爬行速度对于每个网站。转到网站配置::设置::抓取速度。我不相信这会让你按特定顺序安排你的网站,但你至少可以减慢所有网站的速度。
答案4
不,不合理。你必须在每个网站上的 robots.txt 中都添加这个。Google 确实没有所谓的“IP 地址所有者”工具。所有控制权都来自网站上的 robots.txt。