让谷歌停止抓取旧页面

让谷歌停止抓取旧页面

好吧,我遇到了一个有点奇怪的问题。我们的网站被谷歌抓取了很多次。这有几个原因,但这些原因并不容易改变。其中之一是您可以通过 ita.example.com(意大利语)和 fra.example.com(法语)访问我们网站的本地化版本。如果没有登录,我们会进行 301 重定向,内容不会被本地化(比如论坛帖子),但这仍然会导致大量抓取,因为谷歌认为我们的 50 个子域名都是不同的网站(这不是一个好主意,但在我之前,而且不容易改变)

我不想完全限制谷歌的访问速率,我知道我可以在网站管理员工具或 robots.txt 文件中做到这一点

但是,对于其中 6 个子域名来说,7 年前的论坛帖子实际上并没有变化,并且不需要每天进行抓取。

现在我知道我可以在页面上设置“过期时间”,但这会使它不会出现在谷歌搜索结果中,我可以用元标记来阻止它,但这会产生同样的效果。

有什么方法可以让我向谷歌指定“这是一个旧页面,每年不要抓取超过一次”或类似的内容?

如果没有办法做到这一点,有没有办法对某些目录设置速率限制?

答案1

sitemap.xml文件(http://en.wikipedia.org/wiki/Sitemaps) 包含一个<changefreq>元素,用于指示搜索引擎应多久检查一次更新。创建站点地图并针对这些 URL 将其设置为每月、每年或永不更新,应该可以降低 Google 抓取这些 URL 的频率。

答案2

您可以安装 nofollow 元标记

< META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW" >

相关内容