slurm

如何将两个参数传递给 `salloc` 的 `--mail-type` 选项?
slurm

如何将两个参数传递给 `salloc` 的 `--mail-type` 选项?

我想将两个参数传递给 shell 命令的一个选项,具体来说,对于salloc。我可以选择执行以下任一操作 salloc -n 1 -t 24:00:00 --mail-type=BEGIN salloc -n 1 -t 24:00:00 --mail-type=TIME_LIMIT_80 其中选项mail-type采用参数BEGIN,当节点分配成功时向您发送电子邮件,或采用参数TIME_LIMIT_80,当您的节点接近其时间限制的 80% 时向您发送电子邮件。 但是,我希望它同时执行这两项操作。我如何指示mail-type同时执行BEGIN和TIME...

Admin

Linux Mint “slurm” 出现在登录屏幕上
slurm

Linux Mint “slurm” 出现在登录屏幕上

最近,在我的登录屏幕上,我的登录名上方出现了文字slurm。这是什么原因?如何删除它? 我用Linux Mint版本 19.1“Tessa”及其 Cinnamon 桌面环境。 uname -mrs节目 Linux 4.15.0-20-通用 x86_64 泥浆没有安装在我的系统上。 ...

Admin

由于 socket-core-thread-cpu 数量较少,SLURM 将节点设置为耗尽
slurm

由于 socket-core-thread-cpu 数量较少,SLURM 将节点设置为耗尽

我在几个工作站上设置了 SLURM。有不同类型的工作站,但我们以一个具有 4 个内核且没有额外 SMT 的 CPU 为例,因此总共有 4 个线程。lscpu显示以下内容: $ lscpu Architecture: x86_64 CPU op-mode(s): 32-bit, 64-bit Byte Order: Little Endian Address sizes: 39 bits physical, 48 bits virtual CPU(s): 4 On-line CP...

Admin

slurmd:无效的工作凭证
slurm

slurmd:无效的工作凭证

我在笔记本电脑上测试 Slurm 的配置时遇到了一些问题。我试图slurmd在一台机器上运行四个实例,该机器也是我slurmctld运行的同一台机器。我有一个本地munged实例,以用户munge.的身份运行,slurmd并slurmctld以我的用户身份运行,这也是在 中设置的/etc/slurm-llnl/slurm.config。 所有slurmd实例都连接到slurmctld,我可以使用sbatch来启动一个简单的作业,回显“Yay!”并毫无问题地退出。当我尝试在分配的 shell 中使用 时,会出现问题。salloc除了第一台启动的机器外,mpi...

Admin

Slurm - 使用 cgroups 执行 GPU
slurm

Slurm - 使用 cgroups 执行 GPU

我在一台机器(Ubuntu 18.04)上运行 slurm 19.05 来调度 GPU 任务。但是,我无法使用 cgroups 设置 gpu 强制执行。 如果我设置约束设备=是在我的 cgroup.conf 文件中,TensorFlow 在运行时无法访问我的 GPUsrun --gres=gpu:1 run.sh相比之下,任务运行时可以独立于分配访问 gpu萨洛克, IE,salloc 运行. 运行 srun--gres=mps:50 运行.sh再次完美运行。 这是我的slurm.conf: SlurmctldHost=gpu-node1 Epilog...

Admin

AWS 上的 Slurm 节点设置为在启动时耗尽
slurm

AWS 上的 Slurm 节点设置为在启动时耗尽

我正在使用 CloudFormation 创建的 AWS 集群上配置 slurm。在启动时,一些节点被设置为“耗尽”状态,原因是“低套接字核线程数”。但是,集群中的所有节点都是相同的 EC2 实例类型,安装了相同的 slurm.conf 文件,并且来自相同的 AMI。只有部分节点最终处于“耗尽”状态,我看不到其中的规律。在我手动将“耗尽”节点的状态更新为“恢复”后,它们便可用于处理任务。有人见过这种情况吗? ubuntu@ip-10-0-0-10:~$ sinfo PARTITION AVAIL TIMELIMIT NODES STATE NODEL...

Admin

如何取消处于完成(CG)状态的作业?
slurm

如何取消处于完成(CG)状态的作业?

我通常使用 提交一些作业,sbatch并在使用 后取消其中一些作业scancel。但是,它们处于状态CG,我无法从列表中删除这些作业。 有什么办法可以摆脱这些CG工作吗?遗憾的是,我不是集群的管理员,也没有 root 密码。 ...

Admin

AWS 上的 Slurm 返回 slurmstepd:错误:execve()::没有此文件或目录
slurm

AWS 上的 Slurm 返回 slurmstepd:错误:execve()::没有此文件或目录

我在 AWS 上安装了突发事件驱动的 HPC 集群,使用泥浆根据本教程。 通过此安装,我可以在 EC2 上的 Slurm 环境中突发实例并运行作业。运行后: #!/bin/bash #SBATCH --nodes=2 #SBATCH --ntasks-per-node=2 #SBATCH --cpus-per-task=1 #SBATCH --constraint=[us-east-1a] $sinfo返回: PARTITION AVAIL TIMELIMIT NODES STATE NODELIST all* up in...

Admin

Ubuntu 18.10 并修改已安装的包-OpenMPI
slurm

Ubuntu 18.10 并修改已安装的包-OpenMPI

我已经在 Ubuntu 18.10 上安装了openmpi-bin(OpenMPI 3.1)。我也在slurm同一台机器上运行,并且想重新编译或重新配置我的 OpenMPI 安装以应对 Slurm 功能。 如果从源代码安装 OpenMPI,则需要--with-slurm使用一个设置。如何在使用apt(及其安装服务)安装 OpenMPI 期间访问或设置相同的设置? 我现在应该卸载已安装的软件包、下载源代码并从头开始构建一个新的吗? ...

Admin

每个帐户的 Slurm 分区限制
slurm

每个帐户的 Slurm 分区限制

我正在测试一些 slurm 配置。我已经能够使用 job_submit.lua 插件设置分区登录: [root@controller ~]# sinfo PARTITION AVAIL TIMELIMIT NODES STATE NODELIST tiny* up 5-00:00:00 3 idle cn[1-40] # 1 core medium up 5-00:00:00 3 idle cn[1-40] # up to 4 core large up 5-00:00:...

Admin

作业状态=失败原因=非零退出代码,SLURM
slurm

作业状态=失败原因=非零退出代码,SLURM

我是 Slurm 新手,我一直在尝试运行一个简单的作业。我在虚拟机上运行 Slurm。这是我的 slurm.conf: SlurmctldHost=master #SlurmctldHost= # #DisableRootJobs=NO #EnforcePartLimits=NO #Epilog= #EpilogSlurmctld= #FirstJobId=1 #MaxJobId=999999 #GresTypes= #GroupUpdateForce=0 #GroupUpdateTime=600 #JobFileAppend=0 #JobRequeue=...

Admin

Slurm Cluster 上的 Ansys parallele 作业卡住,没有错误或退出消息
slurm

Slurm Cluster 上的 Ansys parallele 作业卡住,没有错误或退出消息

我正在 Slurm 集群上工作,以并行方式执行 Ansys (V18.2) 作业。大型作业(意味着大型解算器文件)经常卡住而没有错误消息或退出消息,作业一直运行直到达到超时。 由于作业规模较大,求解器文件不是写入/保存在核心(RAM 中)或节点的暂存 SSD 中,而是保存在集群/数据存储在那里,我清楚地看到作业是否因求解器文件的“修改日期”信息没有变化而停滞。 我遇到的典型错误消息是“节点失败”或未定义的退出消息,我认为这与内存泄漏有关。但现在不会发生这些情况。 奇怪的是,如果再次运行相同的作业,这可能会在不同的时间点发生,或者(如果我幸运的话)根本不...

Admin

如何使用 slurm 请求仅一个核心而不是一个节点或插槽?
slurm

如何使用 slurm 请求仅一个核心而不是一个节点或插槽?

我编写了 Perl 脚本来分析我的模拟数据。这不是一个并发程序。集群中有八个节点。每个节点有 2 个套接字,每个套接字有 10 个核心。我想使用泥浆和仅有的请求一个核心来执行分析。因此,我可以在一个节点上提交更多(20)个作业。但是,我无法实现这个目标。以下是我的脚本。 #!/bin/sh #SBATCH -n 1 #SBATCH --mem-per-cpu=10gb #SBATCH --ntasks=1 #SBATCH --cpus-per-task=1 #SBATCH -t 45-00:00:00 #SBATCH -J 9430%j #SBATCH -...

Admin

终止 SLURM 僵尸作业
slurm

终止 SLURM 僵尸作业

在我负责的部门集群第一次硬关闭时,我遇到了以下问题。系统正在运行 SLURM 17.11 并使用 MariaDB/SQL 存储会计数据。 为了执行内存升级,我不得不关闭集群的控制和数据库服务器,该服务器使用 SLURM 作为调度程序。重新启动后,控制守护进程拒绝启动,因为显然状态保存文件/var/spool 不再具有正确的权限。因此,我/var/spool/slurm_state 为 slurm 状态文件创建了一个专用文件夹,并将所有权更改为slurm:slurm。修改sulrm.conf以设置正确后StateSaveLocation,控制守护进程启动,我...

Admin

如何使用 SLURM 的 --dependency=expand:正确地
slurm

如何使用 SLURM 的 --dependency=expand:正确地

我有 5 个 slurm 作业中有 1 个未完成,并且已经运行了 19 个小时,我担心它会在完成之前到达时间限制。我不是管理员,现在是周末,所以我想尝试使用此功能我最近发现此示例中显示的内容: $ salloc -N4 -C knl,snc4,flat --dependency=expand:$SLURM_JOB_ID bash salloc: Granted job allocation 65543 但是,当我尝试这样做时,出现错误: $ salloc --qos=1wk --dependency=expand:14602965 salloc: e...

Admin