slurm

在 Python 脚本中动态检查和分配 SLURM 节点
slurm

在 Python 脚本中动态检查和分配 SLURM 节点

我有一个计算量很大的模拟函数,希望将其分布在多节点集群中。代码如下所示: input_tasks = [input_0, input_1, ..., input_n] for i in input_tasks: expensive_function(i) 我正在从具有高计算能力的节点运行代码,并希望将函数输入分发到具有不同计算能力的许多节点。最高计算能力的节点应优先考虑,并且如果它们空闲,则始终接手下一个任务。下面是我希望执行的操作的伪代码。 input_tasks = [input_0, input_1, ..., input_n] availa...

Admin

如何在多台机器之间同步 UID 和 GID,同时尽量减少对用户体验的影响?
slurm

如何在多台机器之间同步 UID 和 GID,同时尽量减少对用户体验的影响?

我有两个工作站(WS 1 和 WS 2)和一个服务器(S),它们都运行 Ubuntu 22.04。这些机器以前是独立管理的,因此用户可以在其中部分或全部机器上拥有帐户,并且它们上存在不同的组。 我想设置一个包含这些机器的集群,以便根据它们的可用资源向它们提交 slurm 作业。我/nfs在 S 上创建了一个目录并设置了一个 NFS 服务器,并在 WS 上安装了 NFS 客户端并挂载/nfs在它们上。 我看见Slurm 快速入门指南时钟、UID 和 GID 应在所有设备上同步。如何才能在尽可能不影响用户的情况下实现此目的? 我发现有几个问题需要解决: 使用 ...

Admin

如何使用 $SLURM_JOB_NODELIST 在 SLURM 中创建主机文件
slurm

如何使用 $SLURM_JOB_NODELIST 在 SLURM 中创建主机文件

我可以访问每个节点上有 40 个核心的 HPC。我有一个批处理文件来运行总共 35 个代码,这些代码位于单独的文件夹中。每个代码都是一个开放的 mp 代码,每个代码都需要 4 个核心。那么我该如何分配资源,以便每个代码都有 4 个核心。请告诉我如何使用 $SLURM_JOB_NODELIST 这个环境,因为我知道这会给出队列中分配的节点列表。基本上,我的想法是在每个文件夹中创建节点文件,然后在 mpirun 中使用它。 我是一名物理专业的学生,​​对 bash 脚本了解不多。 #!/bin/bash #SBATCH --error=job.err #SB...

Admin

节点和前端的 slurm 集群用户的公共主文件夹
slurm

节点和前端的 slurm 集群用户的公共主文件夹

我正在尝试组建一个 SLURM 集群,其中有一个 Odroid XU4 前端(Ubuntu 20.04-5.4 mate)、Odroid MC1 节点(总共 12 个节点:Ubuntu 20.04.1-5.4-minimal)和一个 Odroid HC1 NFS 服务器(OpenMediaVault;带有 Linux 4.14.222-odroidXU4 的 Armbian 21.02.3 Buster)。 我可以查看和更改所有节点的状态并提交作业(使用 slurmR 或 rslurm),并且所有节点都可以访问 NFS 共享工作文件夹(autofs 提供访问...

Admin

如何将两个参数传递给 `salloc` 的 `--mail-type` 选项?
slurm

如何将两个参数传递给 `salloc` 的 `--mail-type` 选项?

我想将两个参数传递给 shell 命令的一个选项,具体来说,对于salloc。我可以选择执行以下任一操作 salloc -n 1 -t 24:00:00 --mail-type=BEGIN salloc -n 1 -t 24:00:00 --mail-type=TIME_LIMIT_80 其中选项mail-type采用参数BEGIN,当节点分配成功时向您发送电子邮件,或采用参数TIME_LIMIT_80,当您的节点接近其时间限制的 80% 时向您发送电子邮件。 但是,我希望它同时执行这两项操作。我如何指示mail-type同时执行BEGIN和TIME...

Admin

Linux Mint “slurm” 出现在登录屏幕上
slurm

Linux Mint “slurm” 出现在登录屏幕上

最近,在我的登录屏幕上,我的登录名上方出现了文字slurm。这是什么原因?如何删除它? 我用Linux Mint版本 19.1“Tessa”及其 Cinnamon 桌面环境。 uname -mrs节目 Linux 4.15.0-20-通用 x86_64 泥浆没有安装在我的系统上。 ...

Admin

由于 socket-core-thread-cpu 数量较少,SLURM 将节点设置为耗尽
slurm

由于 socket-core-thread-cpu 数量较少,SLURM 将节点设置为耗尽

我在几个工作站上设置了 SLURM。有不同类型的工作站,但我们以一个具有 4 个内核且没有额外 SMT 的 CPU 为例,因此总共有 4 个线程。lscpu显示以下内容: $ lscpu Architecture: x86_64 CPU op-mode(s): 32-bit, 64-bit Byte Order: Little Endian Address sizes: 39 bits physical, 48 bits virtual CPU(s): 4 On-line CP...

Admin

slurmd:无效的工作凭证
slurm

slurmd:无效的工作凭证

我在笔记本电脑上测试 Slurm 的配置时遇到了一些问题。我试图slurmd在一台机器上运行四个实例,该机器也是我slurmctld运行的同一台机器。我有一个本地munged实例,以用户munge.的身份运行,slurmd并slurmctld以我的用户身份运行,这也是在 中设置的/etc/slurm-llnl/slurm.config。 所有slurmd实例都连接到slurmctld,我可以使用sbatch来启动一个简单的作业,回显“Yay!”并毫无问题地退出。当我尝试在分配的 shell 中使用 时,会出现问题。salloc除了第一台启动的机器外,mpi...

Admin

Slurm - 使用 cgroups 执行 GPU
slurm

Slurm - 使用 cgroups 执行 GPU

我在一台机器(Ubuntu 18.04)上运行 slurm 19.05 来调度 GPU 任务。但是,我无法使用 cgroups 设置 gpu 强制执行。 如果我设置约束设备=是在我的 cgroup.conf 文件中,TensorFlow 在运行时无法访问我的 GPUsrun --gres=gpu:1 run.sh相比之下,任务运行时可以独立于分配访问 gpu萨洛克, IE,salloc 运行. 运行 srun--gres=mps:50 运行.sh再次完美运行。 这是我的slurm.conf: SlurmctldHost=gpu-node1 Epilog...

Admin

AWS 上的 Slurm 节点设置为在启动时耗尽
slurm

AWS 上的 Slurm 节点设置为在启动时耗尽

我正在使用 CloudFormation 创建的 AWS 集群上配置 slurm。在启动时,一些节点被设置为“耗尽”状态,原因是“低套接字核线程数”。但是,集群中的所有节点都是相同的 EC2 实例类型,安装了相同的 slurm.conf 文件,并且来自相同的 AMI。只有部分节点最终处于“耗尽”状态,我看不到其中的规律。在我手动将“耗尽”节点的状态更新为“恢复”后,它们便可用于处理任务。有人见过这种情况吗? ubuntu@ip-10-0-0-10:~$ sinfo PARTITION AVAIL TIMELIMIT NODES STATE NODEL...

Admin

如何取消处于完成(CG)状态的作业?
slurm

如何取消处于完成(CG)状态的作业?

我通常使用 提交一些作业,sbatch并在使用 后取消其中一些作业scancel。但是,它们处于状态CG,我无法从列表中删除这些作业。 有什么办法可以摆脱这些CG工作吗?遗憾的是,我不是集群的管理员,也没有 root 密码。 ...

Admin

AWS 上的 Slurm 返回 slurmstepd:错误:execve()::没有此文件或目录
slurm

AWS 上的 Slurm 返回 slurmstepd:错误:execve()::没有此文件或目录

我在 AWS 上安装了突发事件驱动的 HPC 集群,使用泥浆根据本教程。 通过此安装,我可以在 EC2 上的 Slurm 环境中突发实例并运行作业。运行后: #!/bin/bash #SBATCH --nodes=2 #SBATCH --ntasks-per-node=2 #SBATCH --cpus-per-task=1 #SBATCH --constraint=[us-east-1a] $sinfo返回: PARTITION AVAIL TIMELIMIT NODES STATE NODELIST all* up in...

Admin

Ubuntu 18.10 并修改已安装的包-OpenMPI
slurm

Ubuntu 18.10 并修改已安装的包-OpenMPI

我已经在 Ubuntu 18.10 上安装了openmpi-bin(OpenMPI 3.1)。我也在slurm同一台机器上运行,并且想重新编译或重新配置我的 OpenMPI 安装以应对 Slurm 功能。 如果从源代码安装 OpenMPI,则需要--with-slurm使用一个设置。如何在使用apt(及其安装服务)安装 OpenMPI 期间访问或设置相同的设置? 我现在应该卸载已安装的软件包、下载源代码并从头开始构建一个新的吗? ...

Admin

每个帐户的 Slurm 分区限制
slurm

每个帐户的 Slurm 分区限制

我正在测试一些 slurm 配置。我已经能够使用 job_submit.lua 插件设置分区登录: [root@controller ~]# sinfo PARTITION AVAIL TIMELIMIT NODES STATE NODELIST tiny* up 5-00:00:00 3 idle cn[1-40] # 1 core medium up 5-00:00:00 3 idle cn[1-40] # up to 4 core large up 5-00:00:...

Admin

作业状态=失败原因=非零退出代码,SLURM
slurm

作业状态=失败原因=非零退出代码,SLURM

我是 Slurm 新手,我一直在尝试运行一个简单的作业。我在虚拟机上运行 Slurm。这是我的 slurm.conf: SlurmctldHost=master #SlurmctldHost= # #DisableRootJobs=NO #EnforcePartLimits=NO #Epilog= #EpilogSlurmctld= #FirstJobId=1 #MaxJobId=999999 #GresTypes= #GroupUpdateForce=0 #GroupUpdateTime=600 #JobFileAppend=0 #JobRequeue=...

Admin