当 GPU 有足够的可用内存时启动新脚本

当 GPU 有足够的可用内存时启动新脚本

我正在使用 Centos 集群,与其他人共享 Nvidia GPU。集群上的每个节点都有 4 个 GPU。我希望找到一种方法来定期监控 4 个 GPU,并在 GPU 的可用 RAM 超过预定义阈值时启动(bash/python)脚本。

我想应该可以解析 的输出,nvidia-smi但这对我来说听起来相当复杂。

有谁知道如何解决这个问题?

相关内容