如何阻止像 google 这样的爬虫对 gitlab 进行索引?

如何阻止像 google 这样的爬虫对 gitlab 进行索引?

我如何阻止任何爬虫访问 gitlab 上的任何内容?

应该有一个 robots.txt 或类似的东西来告诉不要抓取。这将是第一步。

但更重要的是,我如何告诉 gitlab 只允许经过身份验证的访问?例如

https://gitlab.yourdomain.com/是可以公开访问的

https://gitlab.yourdomain.com/explore是可以公开访问的

如果两个 URL 都受到身份验证保护,则任何爬虫都无法再获取任何内容。但是如何使用 gitlab CE 进行配置?

更明确的是,除了登录对话框之外,其他任何东西都不应该公开可见。如何使用 gitlab CE 来管理这一点?

答案1

robots.txt存储库中有一个

https://gitlab.com/gitlab-org/gitlab-foss/blob/master/public/robots.txt

此外,如果您将项目可见性设置为private,您将无法在示例中的 URL 上查看项目。

答案2

如上所述这里,仅使用 robots.txt 是不够的

  • 并非所有搜索引擎都支持 robots.txt 指令。
  • 不同的爬虫对语法的解释不同。
  • 如果从其他网站链接到 robots.txt 中不允许的页面,仍然可以被索引。

所以你需要使用noindex

相关内容