答案1
文件的目的robots.txt
是让爬虫出去网站的某些部分。如果没有,则会导致所有内容都被编入索引。
该 Meta 问题的第一条评论暗示该robots.txt
文件存在但无法访问(无论出于何种原因),而不是根本不存在。可能导致网络爬虫出现一些问题,但这只是猜测。
我的博客 (自托管的 Wordpress 安装) 上没有robots.txt
,而且没有被索引。
答案2
Robots.txt 是搜索引擎之间严格自愿的约定;它们可以自由地忽略它,或以任何它们选择的方式实施它。也就是说,除了偶尔有蜘蛛寻找电子邮件地址或类似的东西外,它们几乎都尊重它。它的格式和逻辑非常非常简单,默认规则是允许(因为你只能迪斯允许)。没有 robots.txt 的站点将被完全索引。
答案3
robots.txt 是完全可选的。如果您有 robots.txt,符合标准的爬虫程序会遵守它;如果您没有 robots.txt,则所有未在 HTML-META 元素中禁止的内容(维基百科) 是可抓取的。
答案4
网站将不受限制地被索引。蜘蛛将跟踪它们发现的任何东西。我不认为你想要那样。一些蜘蛛,比如百度,对此非常积极。它甚至可以评估 javascript 代码中的 URL。
这里有详细信息。 http://www.robotstxt.org/orig.html
附言:您的网络服务器中也会有许多 404 日志。这在读取日志时也很不利。& 不要忘记放入 favicon.ico 文件。这是所有浏览器在每个页面上都要求的另一个愚蠢的文件。