我有这个 robots.txt:
User-Agent: *
Disallow: /files/
User-Agent: ia_archiver
Allow: /
User-agent: Googlebot
Disallow:
User-agent: googlebot-image
Disallow:
User-agent: googlebot-mobile
Disallow:
我发现 /files/ 目录中的 PDF 文件已被 Google 编入索引。
我应该将第一个条目移至底部吗?
在使用 Google 的网站管理员工具时,我将 /files/disallow 移至底部,并对文件目录中的一个 PDF 文件运行测试,结果返回成功。
我该如何修复这个问题?我们不希望此目录中的任何内容被索引。
已编辑
即使我删除除第一条款之外的所有内容,
User-Agent: *
Disallow: /files/
Google 仍然能够看到 /files/ 目录中的 PDF,我在这里做错了什么?
在 Bing 的网站管理员工具中,它显示为被阻止,但 Google 仍然显示成功。
答案1
编辑:重新阅读标准。机器人将使用第一个匹配的名称标记,或回退到*
。对于您要拒绝访问的每个机器人/files/
,您需要添加匹配的disallow:
User-agent: *
Disallow: /files/
User-agent: Googlebot
Disallow: /files/
http://www.robotstxt.org/如果你还没看过的话,这是一个很好的资源。