如何禁用 Torque 中每个 MOM 节点的正确 GPU 数量自动更新?

如何禁用 Torque 中每个 MOM 节点的正确 GPU 数量自动更新?

我安装了 Toque 4.2.9 的小版本。它是使用 --enable-nvidia-gpus 选项编译的。根据文档,当使用此选项时,节点文件会自动更新为正确的 GPU 数量。可以关掉吗?

我问这个问题是因为我想暂时限制可用资源。可能还有其他方法可以实现吗?

答案1

该问题的解决方案是在没有 GPU 支持和创建客户端包的情况下重新编译 Torque。然后,可以将新创建​​的客户端包(不支持 GPU)安装在要禁用 GPU 的节点上。

这种方法的缺点之一是您无法选择禁用哪些 GPU。您可以禁用全部或全部禁用。第二个明显的缺点是您必须在每个节点上单独执行此操作。如果您只有几个节点或者正在使用某种管理软件,那么这不是大问题。在我看来,问题在于从概念的角度来看是错误的。

相关内容