如果网站没有 robots.txt 文件会发生什么?

如果网站没有 robots.txt 文件会发生什么?

如果robots.txt网站根目录中缺少该文件,将如何处理:

  1. 该网站根本没有被索引
  2. 该网站被索引,没有任何限制

在我看来,从逻辑上讲应该是第二个。我问的是这个问题

答案1

文件的目的robots.txt是让爬虫出去网站的某些部分。如果没有,则会导致所有内容都被编入索引。

该 Meta 问题的第一条评论暗示该robots.txt文件存在但无法访问(无论出于何种原因),而不是根本不存在。可能导致网络爬虫出现一些问题,但这只是猜测。

我的博客 (自托管的 Wordpress 安装) 上没有robots.txt,而且没有被索引。

答案2

Robots.txt 是搜索引擎之间严格自愿的约定;它们可以自由地忽略它,或以任何它们选择的方式实施它。也就是说,除了偶尔有蜘蛛寻找电子邮件地址或类似的东西外,它们几乎都尊重它。它的格式和逻辑非常非常简单,默认规则是允许(因为你只能迪斯允许)。没有 robots.txt 的站点将被完全索引。

答案3

robots.txt 是完全可选的。如果您有 robots.txt,符合标准的爬虫程序会遵守它;如果您没有 robots.txt,则所有未在 HTML-META 元素中禁止的内容(维基百科) 是可抓取的。

答案4

网站将不受限制地被索引。蜘蛛将跟踪它们发现的任何东西。我不认为你想要那样。一些蜘蛛,比如百度,对此非常积极。它甚至可以评估 javascript 代码中的 URL。

这里有详细信息。 http://www.robotstxt.org/orig.html

附言:您的网络服务器中也会有许多 404 日志。这在读取日志时也很不利。& 不要忘记放入 favicon.ico 文件。这是所有浏览器在每个页面上都要求的另一个愚蠢的文件。

相关内容