如何使用 robots.txt 仅禁止抓取我的子域名？

Question 1

robots.txt 文件需要放在你的网络服务器的顶级目录中。如果你的主域名和每个子域名位于不同的虚拟主机上，那么你可以将其放在每个子域名的顶级目录中，并包含类似

User-agent: *
Disallow: /

robots.txt 的位置取决于您如何访问特定网站。假设 URL 为

 http://example.com/somewhere/index.html

爬虫会丢弃域名右侧的所有内容，并附加 robots.txt

http://example.com/robots.txt

因此，您需要将 robots.txt 放在 DocumentRoot 指令指向的目录中，例如 example.com，并禁止访问您需要的 /somewhere

User-agent: *
Disallow: /somewhere

如果你有子域名，并且你以以下方式访问它们

http://subdomain.example.com

并且您想禁止访问整个子域，那么您需要将 robots.txt 放在子域的 DocumentRoot 指令指向的目录中。

Answer

robots.txt 文件需要放在你的网络服务器的顶级目录中。如果你的主域名和每个子域名位于不同的虚拟主机上，那么你可以将其放在每个子域名的顶级目录中，并包含类似

User-agent: *
Disallow: /

robots.txt 的位置取决于您如何访问特定网站。假设 URL 为

 http://example.com/somewhere/index.html

爬虫会丢弃域名右侧的所有内容，并附加 robots.txt

http://example.com/robots.txt

因此，您需要将 robots.txt 放在 DocumentRoot 指令指向的目录中，例如 example.com，并禁止访问您需要的 /somewhere

User-agent: *
Disallow: /somewhere

如果你有子域名，并且你以以下方式访问它们

http://subdomain.example.com

并且您想禁止访问整个子域，那么您需要将 robots.txt 放在子域的 DocumentRoot 指令指向的目录中。

Question 2

您必须将其放在您的根目录中，否则将找不到它。

Answer

您必须将其放在您的根目录中，否则将找不到它。

Question 3

您需要将 robots.txt 放在根目录中
禁止规则如下不是特定于域/子域，并将应用于所有 URL

例如：假设您使用的是 sub.mydomain.com 和 mydomain.com（两者都链接到同一个 ftp 文件夹）。对于此设置，如果您设置了 Disallow: /admin/ 规则，则所有 URL sub.mydomain.com/admin/ 和 mydomain.com/admin/ 都将被禁止。

但是如果 sub.mydomain.com 实际上没有链接到另一个站点（也链接到另一个 ftp 文件夹），那么您需要创建另一个 robots.txt 并将其放在该文件夹的根目录中。

Answer

您需要将 robots.txt 放在根目录中
禁止规则如下不是特定于域/子域，并将应用于所有 URL

例如：假设您使用的是 sub.mydomain.com 和 mydomain.com（两者都链接到同一个 ftp 文件夹）。对于此设置，如果您设置了 Disallow: /admin/ 规则，则所有 URL sub.mydomain.com/admin/ 和 mydomain.com/admin/ 都将被禁止。

但是如果 sub.mydomain.com 实际上没有链接到另一个站点（也链接到另一个 ftp 文件夹），那么您需要创建另一个 robots.txt 并将其放在该文件夹的根目录中。

如何使用 robots.txt 仅禁止抓取我的子域名？

答案1

答案2

答案3

相关内容