如果我希望我的主网站出现在搜索引擎中,但子域名不出现在搜索引擎中,我是否应该将“全部禁止”的 robots.txt 放在子域名的目录中?如果我这样做,我的主域名是否仍然可以抓取?
答案1
robots.txt 文件需要放在你的网络服务器的顶级目录中。如果你的主域名和每个子域名位于不同的虚拟主机上,那么你可以将其放在每个子域名的顶级目录中,并包含类似
User-agent: *
Disallow: /
robots.txt 的位置取决于您如何访问特定网站。假设 URL 为
http://example.com/somewhere/index.html
爬虫会丢弃域名右侧的所有内容,并附加 robots.txt
http://example.com/robots.txt
因此,您需要将 robots.txt 放在 DocumentRoot 指令指向的目录中,例如 example.com,并禁止访问您需要的 /somewhere
User-agent: *
Disallow: /somewhere
如果你有子域名,并且你以以下方式访问它们
http://subdomain.example.com
并且您想禁止访问整个子域,那么您需要将 robots.txt 放在子域的 DocumentRoot 指令指向的目录中。
答案2
您必须将其放在您的根目录中,否则将找不到它。
答案3
您需要将 robots.txt 放在根目录中
禁止规则如下不是特定于域/子域,并将应用于所有 URL
例如:假设您使用的是 sub.mydomain.com 和 mydomain.com(两者都链接到同一个 ftp 文件夹)。对于此设置,如果您设置了 Disallow: /admin/ 规则,则所有 URL sub.mydomain.com/admin/ 和 mydomain.com/admin/ 都将被禁止。
但是如果 sub.mydomain.com 实际上没有链接到另一个站点(也链接到另一个 ftp 文件夹),那么您需要创建另一个 robots.txt 并将其放在该文件夹的根目录中。