如果通过 robots.txt 拒绝爬虫访问目录,如果我直接链接,它还会索引该目录中的文件吗?

如果通过 robots.txt 拒绝爬虫访问目录,如果我直接链接,它还会索引该目录中的文件吗?

pdf我拒绝索引名为via 的文件夹robots.txt。但是,我确实直接链接到该目录中存在的几个文件。

Google 等搜索引擎是否会索引这些文件,或者因为它们位于pdf文件夹中而忽略它们?

答案1

简短回答:不。

不允许爬虫程序索引您在 robots.txt 中输入的 URL 前缀下的任何内容。

较长的回答是:这得视情况而定。

Allow关键字不是标准的一部分,但有些机器人会遵循它。您可以使用它来允许特定 URL 并禁止整个子树包含该 URL。大多数机器人都以首次匹配获胜为基础。Google 和 Bing 则以最长字符串获胜为基础,而不管 和 行的顺序Allow如何Disallow

相关内容