Robots.txt 命令

Robots.txt 命令

我在 www.example.com/A/B/C/NAME 有一堆文件(A、B、C 不断变化,NAME 是静态的),我基本上想在 robots.txt 中添加一个命令,这样爬虫程序就不会跟踪任何以 NAME 结尾的链接。

为此,在 robots.txt 中使用最佳命令是什么?

答案1

这是不可能做到的。没有官方标准robots.txt,它只是各种网络爬虫试图尊重和正确解释的一种惯例。

然而Googlebot 支持通配符,因此你可以有这样的部分:

User-agent: Googlebot
Disallow: /*NAME

由于大多数网络爬虫都无法正确解释通配符,而且谁知道它们是如何解释通配符的,因此仅为 googlebot 隔离此规则可能是安全的,但我认为现在每个大型搜索引擎都可以支持它,并且谷歌在搜索中所做的一切都成为事实上的标准。

答案2

    User-agent: googlebot
    Disallow: /*NAME

    User-Agent: slurp
    Disallow: /*NAME

答案3

我看到您在 Stack Overflow 上交叉发布了此内容,但我也会在这里放上我的答案。

不幸的是,您无法在 Disallow 行中使用通配符,因此不能使用通配符。您需要为每个要排除的目录设置一个 disallow 行。

User-agent: *
Disallow: /A/B/C/NAME/
Disallow: /D/E/F/NAME/

不幸的是,标准非常简单,这就是需要做的事情。还请注意,您必须在禁止行后面加上 /。这是一个关于使用 robots.txt 的相当好的参考

答案4

如前所述,robots.txt 规范非常简单。但是,我做的一件事是创建一个动态脚本(PHP、Python 等),将其简单地命名为“robots.txt”,并让它使用脚本更智能的逻辑智能地生成预期的简单结构。您可以遍历子目录、使用正则表达式等。

您可能需要对您的 Web 服务器进行一些调整,以便它以脚本的形式执行“robots.txt”,而不仅仅是提供文件内容。或者,您可以通过 cron 作业运行脚本,该脚本每晚重新生成一次 robots.txt(或需要更新的频率)

相关内容