如何使用我的主域的物理 robots.txt 文件禁止抓取所有子域

如何使用我的主域的物理 robots.txt 文件禁止抓取所有子域

我有多个物理子域,并且我不想更改任何子域的 robots.txt 文件。

有没有什么办法可以禁止主域的物理 robots.txt 文件中的所有子域,而无需使用任何子域的物理文件?

任何常见的服务器(Apache)文件也可以访问所有子域和主域吗?

答案1

subdomain.example.com关于,不可能说什么example.com/robots.txt

robots.txt语法非常有限,例如

User-agent: Google
Disallow: /administrator

User-agent: *
Disallow: /

其中User-agent:定义搜索引擎和Disallow:与服务器根目录相关的路径。在此示例中,Google允许抓取除 之外的任何内容/administrator,其余内容均不允许。与往常一样,robots.txt它不会限制任何内容;这只是一个不去那里的美好愿望。

该语法根本没有适合子域名的位置,并且 Web Robot 仅查找/robots.txtie subdomain.example.com/robots.txt,而不是example.com/robots.txt

答案2

假设您所说的“域”是指类似的example.com,而您所说的子域是指blerf.example.com,那么我相信答案是“您不能这样做”。

问题是,当爬虫试图爬取 时blerf.example.com,它会查看blerf.example.com/robots.txt哪些内容是它不应该爬取的。它不会查看example.com/robots.txt,因为那是不同的域。

有关 robots.txt 操作的一个解释,请参见http://www.robotstxt.org/robotstxt.html

相关内容