如何保护我的站点地图索引文件和 sitemap.xml 文件不被窃取？

Question 1

您可以始终使用一个 URL 作为站点地图，该 URL 不会向除您明确提交到的引擎之外的任何人透露。

看一下http://en.wikipedia.org/wiki/Sitemaps

Answer

您可以始终使用一个 URL 作为站点地图，该 URL 不会向除您明确提交到的引擎之外的任何人透露。

看一下http://en.wikipedia.org/wiki/Sitemaps

Question 2

您应该使用白名单，并且只允许好的搜索引擎（如 Google 和 Bing）访问这些站点地图文件。

这是一个巨大的问题，恐怕大多数人在向 Google 和 Bing 提交站点地图文件时都不会考虑到这一点。我跟踪了对我的 xml 站点地图文件的每个请求，自从我开始这样做（3 个月前）以来，我已经拒绝了超过 6,500 个 IP 的访问。现在只有 Google、Bing 和其他一些网站可以查看这些文件。

由于您使用的是白名单而不是黑名单，他们可以购买他们想要的所有代理，并且永远无法通过。此外，在将 IP 列入白名单之前，您还应该执行反向 DNS 查找，以确保它们确实来自 Google 或 Bing。至于如何在 PHP 中执行此操作，我不知道，因为我们是一家 Microsoft 商店，只进行 ASP.NET 开发。我将首先获取 Google 和 Bing 运行其机器人的 IP 范围，然后当请求来自其中一个 IP 时，执行 DNS 查找并确保 DNS 名称中存在“googlebot”或“msnbot”，如果是，则对该名称执行反向 DNS 查找，以确保返回的 IP 地址与原始 IP 地址匹配。如果匹配，那么您可以安全地允许 IP 查看您的站点地图文件，如果不匹配，则拒绝访问并 404 错误。顺便说一句，我与一位 Google 技术人员交谈时学到了这种技术，所以它非常可靠。

请注意，我拥有并运营一个每月页面浏览量约为 4,000,000 的网站，因此对我来说，这是重中之重，因为我不想我的数据被轻易删除。此外，在 12 小时内从同一 IP 发出 50 次页面请求后，我会使用 recaptcha，这确实可以很好地清除机器人。

我花时间写了这篇文章，因为我希望它能够帮助其他人，并阐明我认为是一个很大程度上被忽视的问题。

Answer