Google Mini 似乎遗漏了一些文档

Google Mini 似乎遗漏了一些文档

我有一个包含动态页面的网站(例如 record.aspx?id=657)。这些页面偶尔会添加。每个页面都可以通过跟踪各种标签找到,并且有一个页面(IP 受限,因此只有 google mini 可以看到)将所有记录列为链接。

这辆迷你火车被设置为每天晚上 3 点进行一次完全爬行。

数据库中最近添加的一些内容似乎没有显示出来,它们已经有几周的历史了,甚至出现在 Google 的主索引中。

知道为什么新记录没有被索引吗?

答案1

尝试这个:

  • 检查您是否没有超出设备的许可证和容量(状态和报告>抓取状态页面)。
  • 检查“找到的与抓取模式匹配的 URL”和“正在提供的文档总数”的值。它们之间的差异必须很小。
  • 检查域的抓取信息(状态和报告>抓取诊断)以查看所有页面是否都已被索引。
  • 如果您有权访问 Web 服务器的日志文件,请强制重新抓取一些未被索引的页面,然后查看 Web 服务器的响应是什么(可能是 404?)。
  • 经过上述所有测试后,如果所有页面都已编入索引但未显示在结果中,我建议升级 Google Mini 的软件。我之前遇到过这种情况,升级后问题解决了。

答案2

所以,只是一个想法,但是您是否超出了设备的容量?

答案3

从您的 Google Mini 管理主页:

  1. 单击左侧栏中的“状态和报告”。
  2. 从下拉菜单中单击“爬网诊断”。

从这里开始,您将看到 4 列:主机名、已抓取的 URL、检索错误和已排除的 URL。这些列中的值是指向有关每列的其他信息的超链接。如果这些特定文档有错误,您可以在这里找到答案。

答案4

Mini 的日志里有关于此的任何内容吗?如果我没记错的话,有一个地方你可以检查 mini 是否可以访问文件。还要确保配置中不会忽略相关的文件类型。

相关内容