我正在使用 Centos 集群,与其他人共享 Nvidia GPU。集群上的每个节点都有 4 个 GPU。我希望找到一种方法来定期监控 4 个 GPU,并在 GPU 的可用 RAM 超过预定义阈值时启动(bash/python)脚本。
我想应该可以解析 的输出,nvidia-smi
但这对我来说听起来相当复杂。
有谁知道如何解决这个问题?
我正在使用 Centos 集群,与其他人共享 Nvidia GPU。集群上的每个节点都有 4 个 GPU。我希望找到一种方法来定期监控 4 个 GPU,并在 GPU 的可用 RAM 超过预定义阈值时启动(bash/python)脚本。
我想应该可以解析 的输出,nvidia-smi
但这对我来说听起来相当复杂。
有谁知道如何解决这个问题?