我有以下环境:
Pods: Pod0, Pod1 (launched as a k8s Job)
GPUs: GPU0, GPU1
GPU0 专用于 Pod0,GPU1 专用于 Pod1。
可以同时有多个 Pod0 和 Pod1。如果有两个 Pod0,则只有一个 Pod0 可以使用 GPU0,另一个 Pod0 应处于Pending
状态直到第一个 Pod0 完成。
这个工作量可以实现吗?
目前我使用nvidia.com/gpu
资源设置,但我唯一能做的就是设置分配给每个 Pod 的 GPU 数量。我尝试过设置NVIDIA_VISIBLE_DEVICES
,但无法达到我想要的效果。