Googlebot 问题

Googlebot 问题

Googlebot 不断尝试索引我们服务器中不存在的 URL,因此它总是收到 404 错误。我们没有该网站的任何参考资料(我认为这是一个来自尼日利亚的博客),所以我不知道 Google 为什么要尝试访问这些页面。

奇怪的是,我在互联网上找不到该网站,就像它根本不存在一样。

这是我的日志中的一个条目的示例:

66.249.72.201 - - [17/Sep/2011:10:08:10 +0200] "GET /main.php/v/Agadez+2006/Tagama/IMG_1214.JPG.html?g2_imageViewsIndex=3&g2_fromNavId=x50ca95f2 HTTP/1.1" 404 245 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"

知道发生什么事了吗?

答案1

众所周知,GoogleBot 会尝试过去存在过的 URL。例如,我最近对我的网站进行了全面改造。过去被编入索引的旧 URL 几个月后仍然被 Googlebot 命中 (404)。我确信我的网站不会以任何方式在内部使用这些 URL。有些 URL 由外部网站链接;有些甚至没有外部链接。

如果您还没有使用过 Google 网站管理员工具,那么您可能需要使用它。您可以使用该工具查看哪些内容被编入索引以及哪些内容导致 404。您还可以查看从哪些外部位置链接到了哪些页面。

答案2

Google 的出名之处在于它抓取互联网并辨别出对搜索者有价值的相关内容。在此过程中,Google 严重依赖来自其他网站的入站链接,将其作为对您网站的一种“信任投票”。只要网络上有其他网站的链接,Google 就会跟踪这些链接来搜索要索引的内容。

我怀疑您域名的前所有者(在您注册之前)在其他地方创建了指向以前撰写的内容的入站链接。现在您已接管了域名,并且内容不再存在,Google 会收到 404 错误。

在理想情况下,Google 会记住收到的 404 错误,并且不会再抓取这些链接。不幸的是,GoogleBot 非常复杂且不断变化,因此很难猜测会发生什么。

我在新注册域名时也遇到过类似的情况——您可以放心地忽略此行为。它不会对您的排名产生任何持续影响。

答案3

发生了什么?Google 正在访问您的网站。无需担心。

如果您担心某事,请阅读给定的 URL:http://www.google.com/bot.html

如果你不希望 Google 访问你的网站,那么你可以屏蔽 IP 范围。在这种情况下页面将被索引。

答案4

从单个 URL 无法判断这是否可行,但我首先要考虑的是将 URL 的某些部分添加到 robots.txt 文件中。

相关内容