这台服务器的用途是深度学习算法。我计划组装一台配备 20 个 GPU(Nvidia GTX 1080 TI)和 2 个 CPU(Intel Xeon Phis)的服务器,然后让许多用户从中获取处理能力。
与此问题相关:如果用户想要 8 个 GPU,那么可以为他们分配 8 个随机免费的 GPU 吗?
另外,一般来说,这会起作用吗?我仍然不明白操作系统在这种情况下将如何运行。是否有一些特殊的服务器操作系统(例如 Ubuntu 服务器)可用于实现此目的?
谢谢
答案1
这不是一台计算机,而是多台独立的计算机(但可能通过快速/低延迟 Infiniband 网络连接)。您需要一个带有作业调度程序/批处理系统的经典 HPC 集群环境,例如 slurm。