多租户(多用户)GPU 容器基础设施解决方案

多租户(多用户)GPU 容器基础设施解决方案

我们需要的:来自不同公司的几个团队希望共享我们的 GPU 来完成深度学习任务(三台计算机,每台计算机有多个 GPU)。因此,需要为多个用户管理多个 GPU。

  • 不同的团队不应该访问其他团队的数据。
  • 团队本身应该能够运行他们需要的任何容器(使用 GPU,例如 tensorflow 等)
  • 每个团队应至少拥有 8 个 GPU,最多 15 个 GPU,因此大多数时间都会使用 GPU
  • 关于 GPU 使用情况的统计数据可以帮助你了解谁没有使用它们。
  • 每个团队可以使用多个容器访问相同的数据集进行训练
  • 团队不应该能够逃离容器,例如将“/”从主机挂载到docker容器并删除/移除/编辑服务器上的随机文件,这会导致数据泄露。

问题: 实现这一目标的最佳开源工具有哪些?

例如 Rancher 2.0?Mesosphere?我们应该如何设置存储?NFS?Uber 和 Google 又是如何做的?其他 DL 初创公司又是如何做的?

类似未解答的问题:

相关内容