您将获得以下输出:
curl https://www.ibm.com/robots.txt
我删除了很多行,只保留了一部分。
User-agent: *
Disallow: //
Disallow: /account/registration
Disallow: /account/mypro
Disallow: /account/myint
# Added to block site mirroring
User-agent: HTTrack
Disallow: /
#
我理解这/
意味着根目录,但是//
这里的双斜杠目录是什么意思robots.txt
?
答案1
这似乎是一个错误:
Disallow: //
问题是,规格robots.txt
——如此处所述—明确指出:
还请注意,User-agent 或 Disallow 行均不支持通配符和正则表达式。User-agent 字段中的“*”是一个特殊值,表示“任何机器人”。具体来说,您不能有类似“User-agent:机器人"、"禁止:/tmp/*" 或 "禁止:*.gif"。
但有些人声称事实并非如此例如这个网站指出谷歌可以处理模式匹配:
模式匹配:目前,模式匹配似乎可供三大搜索引擎使用:Google、Yahoo 和 Live Search。模式匹配的价值是巨大的。我们首先来看一下最基本的模式匹配,即使用星号通配符。
但无论如何,这//
意味着目录的文字目录没有附加名称,因为那里没有通配符 ( *
) 通配符或任何其他内容。这//
看起来很奇怪。
我猜这是某种错误。是的,IBM 网站管理员会犯错误!但我还猜想 是由某个系统自动生成的,并且当被系统自动生成时robots.txt
, 这样的路径以某种方式/*/
被转换为。//
robots.txt