为什么搜索引擎经常显示过多的总结果？

Question 1

像 Google 这样的搜索引擎实际上并不会评估查询。它们所做的只是评估查询的第一部分，即有足够的结果来显示第一个结果页。

这是因为 Google 受到时间限制，需要在几秒钟内给出结果，而对于某些关键词，结果集指向数百万（或更多）个索引页面。

Google 给出的结果总数只是一个统计估计值。它根据找到的结果数以及显示的结果占所有关键字要处理的索引总大小的比例来评估。换句话说，如果给出前 20 个结果需要处理 20% 的索引集，那么 Google 将停止处理并返回总结果大小为 100 的估计值。

当您点击结果时，您可能找不到其中的关键字。这是因为尽管 Google 会重新索引所有页面，但重新抓取数十亿个网页确实需要很长时间。因此，如果页面发生变化，Google 可能会晚几个月才注意到这一变化。

Answer

像 Google 这样的搜索引擎实际上并不会评估查询。它们所做的只是评估查询的第一部分，即有足够的结果来显示第一个结果页。

这是因为 Google 受到时间限制，需要在几秒钟内给出结果，而对于某些关键词，结果集指向数百万（或更多）个索引页面。

Google 给出的结果总数只是一个统计估计值。它根据找到的结果数以及显示的结果占所有关键字要处理的索引总大小的比例来评估。换句话说，如果给出前 20 个结果需要处理 20% 的索引集，那么 Google 将停止处理并返回总结果大小为 100 的估计值。

当您点击结果时，您可能找不到其中的关键字。这是因为尽管 Google 会重新索引所有页面，但重新抓取数十亿个网页确实需要很长时间。因此，如果页面发生变化，Google 可能会晚几个月才注意到这一变化。

Question 2

以下是过于简单的说法，但非常接近：

由于互联网上有如此多的网页，甚至不可能将所有网页都存储在一台服务器上。为了解决这个问题，Google 拥有数千个抓取工具，它们都会抓取网页并将其结果存储在服务器上。这意味着您的查询返回的网页分散在数千台服务器上，并且（如果多个抓取工具抓取到同一网页）同一网页将位于多台服务器上。

当你进行查询时，Google 会询问其服务器有多少个匹配的页面。但由于服务器数量太多，它没有时间查看每个服务器的确切结果。因此，它会获取前十个结果，并让它们返回一个数字，表示还有多少个匹配的页面。

这意味着，如果服务器 #1 有页面 A，服务器 #10 也有页面 A，Google 会将其报告为两个结果。或者，如果 10,000 台服务器都有页面 A，Google 会将其报告为 10,000 个结果！当您点击查看更多结果时，这些“虚假”结果就会消失，因为当它向您显示十个详细结果时，Google做确保没有重复。

希望这个解释有点道理。

我不确定我是否理解了你的第二个问题。Google 默认会“删除重复”链接，因此它不应该在同一个结果中两次显示同一个链接。

Answer