你好,
通常,如果我在地址栏中输入“oneofmysites.com/robots.txt”,任何浏览器都会显示 robots.txt 的内容。如您所见,这是相当标准的行为。
我只有一个 Web 服务器没有此功能。相反,robots.txt 重定向到默认网页(即“thesiteinquestion.com/”)。这个显著的差异(七个网站中只有一个)让我很担心。
问题:这是值得担心的事情吗?如果是的话,我可能遗漏了什么错误?
笔记:
- 这个网站是我使用的唯一一个拥有独立服务提供商的网站。
- CentOS 版本 6.10(最终版)
- 网页管理
- robots.txt 文件权限为 644
答案1
这取决于服务器配置,可能不允许 .txt 文件。配置或 .htaccess 中可能存在一条规则,该规则指定如果 URL 与特定模式(例如 .html、.php、.htm 等)不匹配,则会将其余内容重定向到 Web 根目录的索引页。
答案2
补充一点信息,网络提供商根本没有被迫遵守 robots.txt 标准,因此可以用它做任何他想做的事情,而且就像 Serge 所说的那样,它可以重定向到任何地方。
答案3
爬虫应该阅读robots.txt
并遵守其限制,但网络服务器无法强制执行这一点。
.htaccess
(或者服务器配置文件)可用于阻止不符合要求的爬虫,如果您知道他们是谁的话。