我使用计算机集群并管理节点扭矩和摩押。
用户能够向节点提交作业,并请求他们需要的资源量。
#The following submits the job foo.sh to 1 node, requesting 8 cores, and 1 gpu
qsub foo.sh -l nodes=1:ppn=8:gpus=1
因为用户可能会获取比请求更多的资源,所以我启用了hwloc库(cpusets)来控制用户。
根据我的发现,没有办法阻止用户使用比他们请求的更多的 GPU。
是否有与 GPU 等效的“cpuset”?
资源
摩押文档
扭矩文档
hwloc 文档