pdf
我拒绝索引名为via 的文件夹robots.txt
。但是,我确实直接链接到该目录中存在的几个文件。
Google 等搜索引擎是否会索引这些文件,或者因为它们位于pdf
文件夹中而忽略它们?
答案1
简短回答:不。
不允许爬虫程序索引您在 robots.txt 中输入的 URL 前缀下的任何内容。
较长的回答是:这得视情况而定。
该Allow
关键字不是标准的一部分,但有些机器人会遵循它。您可以使用它来允许特定 URL 并禁止整个子树包含该 URL。大多数机器人都以首次匹配获胜为基础。Google 和 Bing 则以最长字符串获胜为基础,而不管 和 行的顺序Allow
如何Disallow
。