我如何阻止任何爬虫访问 gitlab 上的任何内容?
应该有一个 robots.txt 或类似的东西来告诉不要抓取。这将是第一步。
但更重要的是,我如何告诉 gitlab 只允许经过身份验证的访问?例如
https://gitlab.yourdomain.com/是可以公开访问的
还
https://gitlab.yourdomain.com/explore是可以公开访问的
如果两个 URL 都受到身份验证保护,则任何爬虫都无法再获取任何内容。但是如何使用 gitlab CE 进行配置?
更明确的是,除了登录对话框之外,其他任何东西都不应该公开可见。如何使用 gitlab CE 来管理这一点?
答案1
robots.txt
存储库中有一个
https://gitlab.com/gitlab-org/gitlab-foss/blob/master/public/robots.txt
此外,如果您将项目可见性设置为private
,您将无法在示例中的 URL 上查看项目。