好吧,我被难住了。几个月前,我们推出了一个全新的网站,取代了相当混乱的旧系统。混乱的部分原因是创建了许多实际上不需要存在或被 Google 抓取的页面。有大量重复和 shell 数据,导致 Google 抓取和索引了额外的 URL。在网站转换过程中,我们当然破坏了其中一些 URL,但这似乎并不太令人担心。我在 robots.txt 中屏蔽了那些我知道应该屏蔽的 URL,尽可能多地 301 重定向了重复数据(这仍然是一个持续的过程),对于其他不应该出现在那里的 URL,则直接返回 404。
在过去的 3 个月里,我一直在 Webmaster 中监控 Google 的 404 错误报告,虽然由于逐步删除了空壳和重复数据,我们收到了几千条错误报告,但我并不太担心。我每周都会多次为 Google 生成更新的站点地图,其中包含任何更新的 URL。然后,大约一周前,Webmaster 开始报告 404 错误大幅增加,每天大约有 30,000 个新的 404 错误(这让我无法跟上)。我更新的站点地图中甚至没有 30,000 个 URL。404 错误确实是针对错误的 URL,以及针对几个月来一直不存在且在站点地图中很长时间都没有出现的 URL。这就像 Google 决定随机使用几个月前的站点地图一样,因为我不知道为什么它会突然抓取一个已经存在好几个月并且绝对没有链接到任何地方的数据的 URL(尽管网站管理员声称它已链接到站点地图中......但事实并非如此)。
有人能解释一下吗?我今天早上甚至收到了网站管理员工具的自动消息,报告说我的网站的 404 错误显著增加。我不太确定我应该对此有多担心...
答案1
404 错误都是 Google 机器人造成的,还是他们真的是用户?如果是前者,那么你可能说对了,他们使用了旧的站点地图,或者他们重新抓取了旧的 URL 来检查它们是否确实无效。谁知道机器人是如何工作的,但它通常做对了 - 你的 404 页面不会出现在搜索结果中,所以谁在乎呢?
如果他们是真实用户,您应该使用 referrer 标头查看他们来自哪里。希望您能找到问题的根源。referrer 标头有时是空白的,但对于这么大的样本,我预计会有相当多的数据可用。