配置 .htaccess 以阻止机器人索引但允许浏览器目录列表/查看

配置 .htaccess 以阻止机器人索引但允许浏览器目录列表/查看

我知道为了在浏览器中显示我的文件的目录列表,.htaccess我可以使用

Options +Indexes

为了防止 Google 和大多数机器人抓取我的目录,我可以使用

Options -Indexes

是否仍然允许通过浏览器显示可见的目录列表,但仅通过 阻止机器人抓取/索引.htaccess

答案1

您的.htaccess文件无法神奇地区分“真实”用户和“机器人”用户。因为从网络服务器的角度来看,没有区别。

然而,一般来说,机器人会尊重 的内容robots.txt,而网络浏览器则不会。

或者,如果您有某种方法可以确定哪些是机器人,哪些不是,则可以将该规则纳入.htaccess配置中。一种常见的策略是应用一组基于报告的User-Agent标头进行过滤的 RewriteRules。例如,包含单词“googlebot”的用户代理是大概由 Google 运营。

用户代理.org有一个流行的用户代理标识符列表。但请记住,此标头的内容由运行机器人/浏览器的人设置,并且可以包含她想要的任何内容。因此,例如,恶意用户通常会从流行的浏览器或流行的搜索引擎复制用户代理字符串。所以你不能依赖这个。

相关内容