Robots.txt 命令

Question 1

这是不可能做到的。没有官方标准robots.txt，它只是各种网络爬虫试图尊重和正确解释的一种惯例。

然而Googlebot 支持通配符，因此你可以有这样的部分：

User-agent: Googlebot
Disallow: /*NAME

由于大多数网络爬虫都无法正确解释通配符，而且谁知道它们是如何解释通配符的，因此仅为 googlebot 隔离此规则可能是安全的，但我认为现在每个大型搜索引擎都可以支持它，并且谷歌在搜索中所做的一切都成为事实上的标准。

Answer

这是不可能做到的。没有官方标准robots.txt，它只是各种网络爬虫试图尊重和正确解释的一种惯例。

然而Googlebot 支持通配符，因此你可以有这样的部分：

User-agent: Googlebot
Disallow: /*NAME

由于大多数网络爬虫都无法正确解释通配符，而且谁知道它们是如何解释通配符的，因此仅为 googlebot 隔离此规则可能是安全的，但我认为现在每个大型搜索引擎都可以支持它，并且谷歌在搜索中所做的一切都成为事实上的标准。

Question 2

    User-agent: googlebot
    Disallow: /*NAME

    User-Agent: slurp
    Disallow: /*NAME

Answer

    User-agent: googlebot
    Disallow: /*NAME

    User-Agent: slurp
    Disallow: /*NAME

Question 3

我看到您在 Stack Overflow 上交叉发布了此内容，但我也会在这里放上我的答案。

不幸的是，您无法在 Disallow 行中使用通配符，因此不能使用通配符。您需要为每个要排除的目录设置一个 disallow 行。

User-agent: *
Disallow: /A/B/C/NAME/
Disallow: /D/E/F/NAME/

不幸的是，标准非常简单，这就是需要做的事情。还请注意，您必须在禁止行后面加上 /。这是一个关于使用 robots.txt 的相当好的参考。

Answer

我看到您在 Stack Overflow 上交叉发布了此内容，但我也会在这里放上我的答案。

不幸的是，您无法在 Disallow 行中使用通配符，因此不能使用通配符。您需要为每个要排除的目录设置一个 disallow 行。

User-agent: *
Disallow: /A/B/C/NAME/
Disallow: /D/E/F/NAME/

不幸的是，标准非常简单，这就是需要做的事情。还请注意，您必须在禁止行后面加上 /。这是一个关于使用 robots.txt 的相当好的参考。

Question 4

如前所述，robots.txt 规范非常简单。但是，我做的一件事是创建一个动态脚本（PHP、Python 等），将其简单地命名为“robots.txt”，并让它使用脚本更智能的逻辑智能地生成预期的简单结构。您可以遍历子目录、使用正则表达式等。

您可能需要对您的 Web 服务器进行一些调整，以便它以脚本的形式执行“robots.txt”，而不仅仅是提供文件内容。或者，您可以通过 cron 作业运行脚本，该脚本每晚重新生成一次 robots.txt（或需要更新的频率）

Answer

如前所述，robots.txt 规范非常简单。但是，我做的一件事是创建一个动态脚本（PHP、Python 等），将其简单地命名为“robots.txt”，并让它使用脚本更智能的逻辑智能地生成预期的简单结构。您可以遍历子目录、使用正则表达式等。

您可能需要对您的 Web 服务器进行一些调整，以便它以脚本的形式执行“robots.txt”，而不仅仅是提供文件内容。或者，您可以通过 cron 作业运行脚本，该脚本每晚重新生成一次 robots.txt（或需要更新的频率）

相关内容