为什么谷歌不搜索维基百科的历史部分？

Question

网站引擎特别要求不要索引这些页面。历史页面有一个搜索引擎识别的标题标签：

<meta name="robots" content="noindex,nofollow"/>

（noindex排除页面的直接内容，并nofollow告诉搜索爬虫忽略任何进一步的链接从本页。后一个属性也可附加到单独的 <a> 链接。）

一个可能的原因是搜索引擎可能无法轻松区分“当前”和“历史”页面，因此结果可能会被您无法删除的过时数据淹没。

另一个原因是 MediaWiki 以增量压缩格式存储历史记录，历史记录项越旧，解压缩它所需的 CPU 就越多。（据我所知，存在定期的“完整”检查点，因此它不会无限期地循环下去，但它仍然是一种非零资源使用。）将此乘以每个 wiki 页面的数百或数千个修订版本，爬虫可能会很快使服务器超载。

最后，除了历史记录部分，维基百科还使用该/robots.txt文件来排除某些 URL 被索引。例如，其 robots.txt 文件排除所有“投票删除”主题、“用户名更改请求”页面等。

Answer 1

网站引擎特别要求不要索引这些页面。历史页面有一个搜索引擎识别的标题标签：

<meta name="robots" content="noindex,nofollow"/>

（noindex排除页面的直接内容，并nofollow告诉搜索爬虫忽略任何进一步的链接从本页。后一个属性也可附加到单独的 <a> 链接。）

一个可能的原因是搜索引擎可能无法轻松区分“当前”和“历史”页面，因此结果可能会被您无法删除的过时数据淹没。

另一个原因是 MediaWiki 以增量压缩格式存储历史记录，历史记录项越旧，解压缩它所需的 CPU 就越多。（据我所知，存在定期的“完整”检查点，因此它不会无限期地循环下去，但它仍然是一种非零资源使用。）将此乘以每个 wiki 页面的数百或数千个修订版本，爬虫可能会很快使服务器超载。

最后，除了历史记录部分，维基百科还使用该/robots.txt文件来排除某些 URL 被索引。例如，其 robots.txt 文件排除所有“投票删除”主题、“用户名更改请求”页面等。

相关内容