如果网站没有 robots.txt 文件会发生什么？

Question 1

文件的目的robots.txt是让爬虫出去网站的某些部分。如果没有，则会导致所有内容都被编入索引。

该 Meta 问题的第一条评论暗示该robots.txt文件存在但无法访问（无论出于何种原因），而不是根本不存在。可能导致网络爬虫出现一些问题，但这只是猜测。

我的博客 (自托管的 Wordpress 安装) 上没有robots.txt，而且没有被索引。

Answer

文件的目的robots.txt是让爬虫出去网站的某些部分。如果没有，则会导致所有内容都被编入索引。

该 Meta 问题的第一条评论暗示该robots.txt文件存在但无法访问（无论出于何种原因），而不是根本不存在。可能导致网络爬虫出现一些问题，但这只是猜测。

我的博客 (自托管的 Wordpress 安装) 上没有robots.txt，而且没有被索引。

Question 2

Robots.txt 是搜索引擎之间严格自愿的约定；它们可以自由地忽略它，或以任何它们选择的方式实施它。也就是说，除了偶尔有蜘蛛寻找电子邮件地址或类似的东西外，它们几乎都尊重它。它的格式和逻辑非常非常简单，默认规则是允许（因为你只能迪斯允许）。没有 robots.txt 的站点将被完全索引。

Answer

Robots.txt 是搜索引擎之间严格自愿的约定；它们可以自由地忽略它，或以任何它们选择的方式实施它。也就是说，除了偶尔有蜘蛛寻找电子邮件地址或类似的东西外，它们几乎都尊重它。它的格式和逻辑非常非常简单，默认规则是允许（因为你只能迪斯允许）。没有 robots.txt 的站点将被完全索引。

Question 3

robots.txt 是完全可选的。如果您有 robots.txt，符合标准的爬虫程序会遵守它；如果您没有 robots.txt，则所有未在 HTML-META 元素中禁止的内容（维基百科) 是可抓取的。

Answer

robots.txt 是完全可选的。如果您有 robots.txt，符合标准的爬虫程序会遵守它；如果您没有 robots.txt，则所有未在 HTML-META 元素中禁止的内容（维基百科) 是可抓取的。

Question 4

网站将不受限制地被索引。蜘蛛将跟踪它们发现的任何东西。我不认为你想要那样。一些蜘蛛，比如百度，对此非常积极。它甚至可以评估 javascript 代码中的 URL。

附言：您的网络服务器中也会有许多 404 日志。这在读取日志时也很不利。& 不要忘记放入 favicon.ico 文件。这是所有浏览器在每个页面上都要求的另一个愚蠢的文件。

Answer

网站将不受限制地被索引。蜘蛛将跟踪它们发现的任何东西。我不认为你想要那样。一些蜘蛛，比如百度，对此非常积极。它甚至可以评估 javascript 代码中的 URL。

附言：您的网络服务器中也会有许多 404 日志。这在读取日志时也很不利。& 不要忘记放入 favicon.ico 文件。这是所有浏览器在每个页面上都要求的另一个愚蠢的文件。

相关内容