答案1
网站引擎特别要求不要索引这些页面。历史页面有一个搜索引擎识别的标题标签:
<meta name="robots" content="noindex,nofollow"/>
(noindex
排除页面的直接内容,并nofollow
告诉搜索爬虫忽略任何进一步的链接从本页。后一个属性也可附加到单独的 <a> 链接。)
一个可能的原因是搜索引擎可能无法轻松区分“当前”和“历史”页面,因此结果可能会被您无法删除的过时数据淹没。
另一个原因是 MediaWiki 以增量压缩格式存储历史记录,历史记录项越旧,解压缩它所需的 CPU 就越多。(据我所知,存在定期的“完整”检查点,因此它不会无限期地循环下去,但它仍然是一种非零资源使用。)将此乘以每个 wiki 页面的数百或数千个修订版本,爬虫可能会很快使服务器超载。
最后,除了历史记录部分,维基百科还使用该/robots.txt
文件来排除某些 URL 被索引。例如,其 robots.txt 文件排除所有“投票删除”主题、“用户名更改请求”页面等。