如何使用 robots.txt 仅禁止抓取我的子域名?

如何使用 robots.txt 仅禁止抓取我的子域名?

如果我希望我的主网站出现在搜索引擎中,但子域名不出现在搜索引擎中,我是否应该将“全部禁止”的 robots.txt 放在子域名的目录中?如果我这样做,我的主域名是否仍然可以抓取?

答案1

robots.txt 文件需要放在你的网络服务器的顶级目录中。如果你的主域名和每个子域名位于不同的虚拟主机上,那么你可以将其放在每个子域名的顶级目录中,并包含类似

User-agent: *
Disallow: /

robots.txt 的位置取决于您如何访问特定网站。假设 URL 为

 http://example.com/somewhere/index.html

爬虫会丢弃域名右侧的所有内容,并附加 robots.txt

http://example.com/robots.txt  

因此,您需要将 robots.txt 放在 DocumentRoot 指令指向的目录中,例如 example.com,并禁止访问您需要的 /somewhere

User-agent: *
Disallow: /somewhere

如果你有子域名,并且你以以下方式访问它们

http://subdomain.example.com

并且您想禁止访问整个子域,那么您需要将 robots.txt 放在子域的 DocumentRoot 指令指向的目录中。

答案2

您必须将其放在您的根目录中,否则将找不到它。

答案3

  1. 您需要将 robots.txt 放在根目录中

  2. 禁止规则如下不是特定于域/子域,并将应用于所有 URL

例如:假设您使用的是 sub.mydomain.com 和 mydomain.com(两者都链接到同一个 ftp 文件夹)。对于此设置,如果您设置了 Disallow: /admin/ 规则,则所有 URL sub.mydomain.com/admin/ 和 mydomain.com/admin/ 都将被禁止。

但是如果 sub.mydomain.com 实际上没有链接到另一个站点(也链接到另一个 ftp 文件夹),那么您需要创建另一个 robots.txt 并将其放在该文件夹的根目录中。

相关内容