ARails 模板脚本我一直在关注自动添加User-Agent:
和Dissalow:
在 robots.txt 中,从而禁止所有蜘蛛访问该网站
禁止蜘蛛有什么好处以及为什么要这么做?
答案1
在开发过程中,您可能不希望搜索引擎立即索引您的网站。
答案2
一般来说,您会希望禁止蜘蛛访问您网站的某些部分或您不希望出现在搜索结果中的页面,或者不向搜索引擎提供任何内容 - 例如反馈表、脚本目录、图像目录等...
有时蜘蛛会以很高的频率访问您的网站,因此,如果某些爬虫访问的页面速度很慢,则阻止它们可以帮助服务器加载。
如果您删除页面或目录,您还需要禁止它,以便它不会在您的服务器日志中输出 404。
答案3
请记住,robots.txt 是自愿的,可靠性不高。好的机器人确实会遵守 robots.txt,因此这是控制搜索引擎内容的好方法。
有一种误解认为将内容放入 robots.txt 中可以提高安全性或防止机器人抓取性能不佳的网页。但是,一些恶意机器人会忽略 robots.txt。如果 robots.txt 被意外删除一周,机器人可能会扫描您的网站并将结果发布到 Google/Yahoo/Bing,您可能永远无法清理它。一些恶意软件程序会专门在您的 robots.txt 文件中寻找有趣的目标,并专门针对那些被禁止的项目。