robots.txt 正在重定向到默认页面

robots.txt 正在重定向到默认页面

你好,

通常,如果我在地址栏中输入“oneofmysites.com/robots.txt”,任何浏览器都会显示 robots.txt 的内容。如您所见,这是相当标准的行为

我只有一个 Web 服务器没有此功能。相反,robots.txt 重定向到默认网页(即“thesiteinquestion.com/”)。这个显著的差异(七个网站中只有一个)让我很担心。

问题:这是值得担心的事情吗?如果是的话,我可能遗漏了什么错误?

笔记:

  • 这个网站是我使用的唯一一个拥有独立服务提供商的网站。
  • CentOS 版本 6.10(最终版)
  • 网页管理
  • robots.txt 文件权限为 644

答案1

这取决于服务器配置,可能不允许 .txt 文件。配置或 .htaccess 中可能存在一条规则,该规则指定如果 URL 与特定模式(例如 .html、.php、.htm 等)不匹配,则会将其余内容重定向到 Web 根目录的索引页。

答案2

补充一点信息,网络提供商根本没有被迫遵守 robots.txt 标准,因此可以用它做任何他想做的事情,而且就像 Serge 所说的那样,它可以重定向到任何地方。

答案3

爬虫应该阅读robots.txt并遵守其限制,但网络服务器无法强制执行这一点。

.htaccess(或者服务器配置文件)可用于阻止不符合要求的爬虫,如果您知道他们是谁的话。

相关内容