如何使用我的主域的物理 robots.txt 文件禁止抓取所有子域

Question 1

subdomain.example.com关于，不可能说什么example.com/robots.txt。

这robots.txt语法非常有限，例如

User-agent: Google
Disallow: /administrator

User-agent: *
Disallow: /

其中User-agent:定义搜索引擎和Disallow:与服务器根目录相关的路径。在此示例中，Google允许抓取除之外的任何内容/administrator，其余内容均不允许。与往常一样，robots.txt它不会限制任何内容；这只是一个不去那里的美好愿望。

该语法根本没有适合子域名的位置，并且 Web Robot 仅查找/robots.txtie subdomain.example.com/robots.txt，而不是example.com/robots.txt。

Answer

subdomain.example.com关于，不可能说什么example.com/robots.txt。

这robots.txt语法非常有限，例如

User-agent: Google
Disallow: /administrator

User-agent: *
Disallow: /

其中User-agent:定义搜索引擎和Disallow:与服务器根目录相关的路径。在此示例中，Google允许抓取除之外的任何内容/administrator，其余内容均不允许。与往常一样，robots.txt它不会限制任何内容；这只是一个不去那里的美好愿望。

该语法根本没有适合子域名的位置，并且 Web Robot 仅查找/robots.txtie subdomain.example.com/robots.txt，而不是example.com/robots.txt。

Question 2

假设您所说的“域”是指类似的example.com，而您所说的子域是指blerf.example.com，那么我相信答案是“您不能这样做”。

问题是，当爬虫试图爬取时blerf.example.com，它会查看blerf.example.com/robots.txt哪些内容是它不应该爬取的。它不会查看example.com/robots.txt，因为那是不同的域。

有关 robots.txt 操作的一个解释，请参见http://www.robotstxt.org/robotstxt.html。

Answer

假设您所说的“域”是指类似的example.com，而您所说的子域是指blerf.example.com，那么我相信答案是“您不能这样做”。

问题是，当爬虫试图爬取时blerf.example.com，它会查看blerf.example.com/robots.txt哪些内容是它不应该爬取的。它不会查看example.com/robots.txt，因为那是不同的域。

有关 robots.txt 操作的一个解释，请参见http://www.robotstxt.org/robotstxt.html。

相关内容