用于 GPU 分配的任务假脱机多槽“槽索引”

用于 GPU 分配的任务假脱机多槽“槽索引”

我正在尝试使用任务后台处理程序为 CUDA 项目安排 CI/CD 测试任务。系统包含多个 GPU,单个任务会占用一个 GPU 的大部分内存,因此我想避免为单个 GPU 分配多个任务。tsp 允许“多槽”模式,在该模式下,它可以有多个可从队列中拉取的活动槽,而不仅仅是一个。但是,到目前为止,我还没有看到任务本身推断出它被分配了哪个槽的方法,这意味着我不知道在哪个 GPU 上运行任务。我可以使用 nvidia-smi 之类的工具检查正在使用哪些 GPU,但如果在很短的时间内从队列中拉取多个项目,这可能会导致竞争条件。

有没有办法推断出这个插槽号,或者以某种方式将其发送给进程?

相关内容