我可以保护我的 sitemap.xml 以便只有搜索引擎可以下载它吗?

我可以保护我的 sitemap.xml 以便只有搜索引擎可以下载它吗?

我计划在站点地图中添加一堆页面汇总列表,但我不想让外部人员轻易抓取这些页面。我可以保护我的 sitemap.xml 以便只有搜索引擎可以下载它吗?

安装防火墙?我用的是IIS6。

答案1

我首先想到的是,如果 sitemap.xml 的请求与正确的用户代理或 IP 地址不匹配,您可以执行重写规则,将对 sitemap.xml 的请求重定向到 404 页面。

我没有这样的重写规则,但我 99%确定这是可能的。

答案2

正如 Dennis 指出的那样,欺骗这一点很容易。此外,确保你没有意外排除搜索引擎也很难。

假设您想允许 Google、Yahoo 和 Bing 抓取您的网站。因此,您只允许相关用户代理访问站点地图。现在有两个问题:

如果某项服务更改了用户代理怎么办?如果您需要添加其他服务怎么办?现在您必须重写规则,服务才能查看站点地图。

作为网站爬虫,我为什么不简单地谎称自己是 Google 蜘蛛呢?在多种不同的语言以及 FireFox 和 Safari 等许多浏览器中,指定用户代理都是可能的(而且很容易)。

因此,简短的回答是:“不,但你可以让它变得更难。但这会给你带来负担。”

答案3

您如何知道什么是搜索引擎,什么不是搜索引擎?用户代理是可以替换的——但撇开这一点不谈,如果您遇到未知的用户代理,您知道它是浏览器还是搜索引擎吗?有数百家公司拥有搜索引擎,因此仅仅允许来自 Google、Bing 等公司的 IP 在这里是远远不够的。

尝试将站点地图隐藏在搜索引擎之外是一种通过隐蔽性来实现的安全形式,并且任何关心的人都不会因任何合理的阻止尝试而受到阻碍。

相关内容