为什么谷歌不搜索维基百科的历史部分?

为什么谷歌不搜索维基百科的历史部分?

我刚刚注册,有个愚蠢的问题。
为什么谷歌不显示维基百科“查看历史记录”页面的信息?
例如,此历史页面如果我谷歌搜索任何文字不会得到结果。
谢谢。

答案1

网站引擎特别要求不要索引这些页面。历史页面有一个搜索引擎识别的标题标签:

<meta name="robots" content="noindex,nofollow"/>

noindex排除页面的直接内容,并nofollow告诉搜索爬虫忽略任何进一步的链接本页。后一个属性也可附加到单独的 <a> 链接。)

一个可能的原因是搜索引擎可能无法轻松区分“当前”和“历史”页面,因此结果可能会被您无法删除的过时数据淹没。

另一个原因是 MediaWiki 以增量压缩格式存储历史记录,历史记录项越旧,解压缩它所需的 CPU 就越多。(据我所知,存在定期的“完整”检查点,因此它不会无限期地循环下去,但它仍然是一种非零资源使用。)将此乘以每个 wiki 页面的数百或数千个修订版本,爬虫可能会很快使服务器超载。

最后,除了历史记录部分,维基百科还使用该/robots.txt文件来排除某些 URL 被索引。例如,其 robots.txt 文件排除所有“投票删除”主题、“用户名更改请求”页面等。

相关内容