我如何鼓励 Google 读取新的 robots.txt 文件?

我如何鼓励 Google 读取新的 robots.txt 文件?

我刚刚在新网站上更新了我的 robots.txt 文件;Google 网站管理员工具报告说,它在我上次更新前 10 分钟读取了我的 robots.txt 文件。

有什么方法可以让我尽快让 Google 重新读取我的 robots.txt?

更新:在站点配置|爬虫访问|测试robots.txt下:

主页访问显示:

Googlebot 被阻止http://my.example.com/

仅供参考:Google 上次读取的 robots.txt 如下所示:

User-agent: *
Allow: /<a page>
Allow: /<a folder>
Disallow: /

我是不是搬起石头砸自己的脚了,或者它最终会读取:http:///robots.txt(就像上次读取时一样)?

对于我需要做什么,您有什么想法吗?

答案1

如果其他人遇到这个问题,有一种方法可以强制 google-bot 重新下载 robots.txt 文件。

进入健康 -> 以 Google 身份抓取 [1],并让其抓取 /robots.txt

这将重新下载该文件并且谷歌也会重新解析该文件。

[1] 在之前的 Google UI 中,它是“诊断 -> 作为 GoogleBot 抓取”。

答案2

我知道这很老了,但是...如果您上传了错误的 robots.txt(禁止所有页面),您可以尝试以下操作:

  • 首先修改 robots.txt 以允许正确的页面,然后
  • 上传包含您网页的 sitemap.xml

当谷歌尝试读取 xml 站点地图时,它会再次检查 robots.txt,从而迫使谷歌重新读取您的 robots.txt。

答案3

遇到同样的问题后,我通过提交此网址成功让 Google 重新读取我的 robots.txt 文件:

https://www.google.com/webmasters/tools/robots-testing-tool

答案4

缩短谷歌扫描间隔几天。

另外,我已经看到了验证你的 robots.txt 的按钮,这可能会强制它进行谷歌搜索,但我不确定。

相关内容