当 GPU 有足够的可用内存时启动新脚本

2024-6-5 • tag-icon

我正在使用 Centos 集群，与其他人共享 Nvidia GPU。集群上的每个节点都有 4 个 GPU。我希望找到一种方法来定期监控 4 个 GPU，并在 GPU 的可用 RAM 超过预定义阈值时启动（bash/python）脚本。

我想应该可以解析的输出，nvidia-smi但这对我来说听起来相当复杂。

有谁知道如何解决这个问题？

相关内容