检测 pdsh 会话
在我们的集群上,我们使用 LMOD 动态加载特定的预安装模块(如 PyTorch 或其他一些科学包)。最重要的是,我想运行一些代码深速允许优化跨节点运行分布式代码的框架。它在幕后使用pdsh.我遇到的问题是 ssh 会话当然不会加载我已经在主节点中加载的模块 - 但这会导致问题,因为它无法找到一些所需的库,例如 Python。 举个例子:假设我请求一个具有多个节点的交互式 SLURM 作业。在主节点中,我加载模块 PyTorch+Python 和 pdsh module load PyTorch/1.12.0-foss-2022a-CUDA-11.7.0 m...