我有多个物理子域,并且我不想更改任何子域的 robots.txt 文件。
有没有什么办法可以禁止主域的物理 robots.txt 文件中的所有子域,而无需使用任何子域的物理文件?
任何常见的服务器(Apache)文件也可以访问所有子域和主域吗?
答案1
subdomain.example.com
关于,不可能说什么example.com/robots.txt
。
这robots.txt
语法非常有限,例如
User-agent: Google
Disallow: /administrator
User-agent: *
Disallow: /
其中User-agent:
定义搜索引擎和Disallow:
与服务器根目录相关的路径。在此示例中,Google
允许抓取除 之外的任何内容/administrator
,其余内容均不允许。与往常一样,robots.txt
它不会限制任何内容;这只是一个不去那里的美好愿望。
该语法根本没有适合子域名的位置,并且 Web Robot 仅查找/robots.txt
ie subdomain.example.com/robots.txt
,而不是example.com/robots.txt
。
答案2
假设您所说的“域”是指类似的example.com
,而您所说的子域是指blerf.example.com
,那么我相信答案是“您不能这样做”。
问题是,当爬虫试图爬取 时blerf.example.com
,它会查看blerf.example.com/robots.txt
哪些内容是它不应该爬取的。它不会查看example.com/robots.txt
,因为那是不同的域。
有关 robots.txt 操作的一个解释,请参见http://www.robotstxt.org/robotstxt.html。