我刚刚在新网站上更新了我的 robots.txt 文件;Google 网站管理员工具报告说,它在我上次更新前 10 分钟读取了我的 robots.txt 文件。
有什么方法可以让我尽快让 Google 重新读取我的 robots.txt?
更新:在站点配置|爬虫访问|测试robots.txt下:
主页访问显示:
Googlebot 被阻止http://my.example.com/
仅供参考:Google 上次读取的 robots.txt 如下所示:
User-agent: *
Allow: /<a page>
Allow: /<a folder>
Disallow: /
我是不是搬起石头砸自己的脚了,或者它最终会读取:http:///robots.txt(就像上次读取时一样)?
对于我需要做什么,您有什么想法吗?
答案1
如果其他人遇到这个问题,有一种方法可以强制 google-bot 重新下载 robots.txt 文件。
进入健康 -> 以 Google 身份抓取 [1],并让其抓取 /robots.txt
这将重新下载该文件并且谷歌也会重新解析该文件。
[1] 在之前的 Google UI 中,它是“诊断 -> 作为 GoogleBot 抓取”。
答案2
我知道这很老了,但是...如果您上传了错误的 robots.txt(禁止所有页面),您可以尝试以下操作:
- 首先修改 robots.txt 以允许正确的页面,然后
- 上传包含您网页的 sitemap.xml
当谷歌尝试读取 xml 站点地图时,它会再次检查 robots.txt,从而迫使谷歌重新读取您的 robots.txt。
答案3
遇到同样的问题后,我通过提交此网址成功让 Google 重新读取我的 robots.txt 文件:
答案4
缩短谷歌扫描间隔几天。
另外,我已经看到了验证你的 robots.txt 的按钮,这可能会强制它进行谷歌搜索,但我不确定。