slurm

解决 Ubuntu 22.04 节点上的 Slurm cgroups 插件错误

我正在与泥浆和面临的问题特别是使用 cgroups 插件Ubuntu 22.04 节点我们的团队对 Slurm 的使用还比较新，我们一直在尝试优化资源管理以应对复杂的计算任务。然而，我们遇到了一系列难以解决的错误。以下是我们的问题的简要概述：我们最初在两个 Ubuntu 22.04 节点和一个 Ubuntu 18.04 节点上使用 cgroups V2 插件，但效果不如预期。切换到 cgroups V1 插件后，我们可以在 Ubuntu 18.04 节点上运行作业，但 Ubuntu 22.04 节点开始显示错误。错误包括在中打开和安装目录的问题...

Admin 2024-11-27

slurm

在 SLURM 上通过 Nextflow 运行的命令出现错误代码 140

[注：问题经过大量编辑，以对应实际问题] 我正在尝试调试仅在特定条件下失败的命令。失败的退出代码为 140，但我没有其他信息。此命令是cat in_file | tr "\t" "\n" > out_file，并且它是下一个流程脚本，该脚本又在集群上运行斯拉普调度程序。由于该命令是trGNU coreutils 的一部分，因此我检查了手册页和信息，只提到“退出状态为零表示成功，非零值表示失败。”，但这不是标准错误errno.h代码。 ...

Admin 2024-11-23

slurm

在 Python 脚本中动态检查和分配 SLURM 节点

我有一个计算量很大的模拟函数，希望将其分布在多节点集群中。代码如下所示： input_tasks = [input_0, input_1, ..., input_n] for i in input_tasks: expensive_function(i) 我正在从具有高计算能力的节点运行代码，并希望将函数输入分发到具有不同计算能力的许多节点。最高计算能力的节点应优先考虑，并且如果它们空闲，则始终接手下一个任务。下面是我希望执行的操作的伪代码。 input_tasks = [input_0, input_1, ..., input_n] availa...

Admin 2024-11-18

slurm

如何在多台机器之间同步 UID 和 GID，同时尽量减少对用户体验的影响？

我有两个工作站（WS 1 和 WS 2）和一个服务器（S），它们都运行 Ubuntu 22.04。这些机器以前是独立管理的，因此用户可以在其中部分或全部机器上拥有帐户，并且它们上存在不同的组。我想设置一个包含这些机器的集群，以便根据它们的可用资源向它们提交 slurm 作业。我/nfs在 S 上创建了一个目录并设置了一个 NFS 服务器，并在 WS 上安装了 NFS 客户端并挂载/nfs在它们上。我看见Slurm 快速入门指南时钟、UID 和 GID 应在所有设备上同步。如何才能在尽可能不影响用户的情况下实现此目的？我发现有几个问题需要解决：使用 ...

Admin 2024-10-27

slurm

如何使用 $SLURM_JOB_NODELIST 在 SLURM 中创建主机文件

我可以访问每个节点上有 40 个核心的 HPC。我有一个批处理文件来运行总共 35 个代码，这些代码位于单独的文件夹中。每个代码都是一个开放的 mp 代码，每个代码都需要 4 个核心。那么我该如何分配资源，以便每个代码都有 4 个核心。请告诉我如何使用 $SLURM_JOB_NODELIST 这个环境，因为我知道这会给出队列中分配的节点列表。基本上，我的想法是在每个文件夹中创建节点文件，然后在 mpirun 中使用它。我是一名物理专业的学生，对 bash 脚本了解不多。 #!/bin/bash #SBATCH --error=job.err #SB...

Admin 2024-9-10

slurm

节点和前端的 slurm 集群用户的公共主文件夹

我正在尝试组建一个 SLURM 集群，其中有一个 Odroid XU4 前端（Ubuntu 20.04-5.4 mate）、Odroid MC1 节点（总共 12 个节点：Ubuntu 20.04.1-5.4-minimal）和一个 Odroid HC1 NFS 服务器（OpenMediaVault；带有 Linux 4.14.222-odroidXU4 的 Armbian 21.02.3 Buster）。我可以查看和更改所有节点的状态并提交作业（使用 slurmR 或 rslurm），并且所有节点都可以访问 NFS 共享工作文件夹（autofs 提供访问...

Admin 2024-9-9

slurm

如何将两个参数传递给 `salloc` 的 `--mail-type` 选项？

我想将两个参数传递给 shell 命令的一个选项，具体来说，对于salloc。我可以选择执行以下任一操作 salloc -n 1 -t 24:00:00 --mail-type=BEGIN salloc -n 1 -t 24:00:00 --mail-type=TIME_LIMIT_80 其中选项mail-type采用参数BEGIN，当节点分配成功时向您发送电子邮件，或采用参数TIME_LIMIT_80，当您的节点接近其时间限制的 80％时向您发送电子邮件。但是，我希望它同时执行这两项操作。我如何指示mail-type同时执行BEGIN和TIME...

Admin 2024-7-21

slurm

Linux Mint “slurm” 出现在登录屏幕上

最近，在我的登录屏幕上，我的登录名上方出现了文字slurm。这是什么原因？如何删除它？我用Linux Mint版本 19.1“Tessa”及其 Cinnamon 桌面环境。 uname -mrs节目 Linux 4.15.0-20-通用 x86_64 泥浆没有安装在我的系统上。 ...

Admin 2024-7-17

slurm

由于 socket-core-thread-cpu 数量较少，SLURM 将节点设置为耗尽

我在几个工作站上设置了 SLURM。有不同类型的工作站，但我们以一个具有 4 个内核且没有额外 SMT 的 CPU 为例，因此总共有 4 个线程。lscpu显示以下内容： $ lscpu Architecture: x86_64 CPU op-mode(s): 32-bit, 64-bit Byte Order: Little Endian Address sizes: 39 bits physical, 48 bits virtual CPU(s): 4 On-line CP...

Admin 2024-7-5

slurm

slurmd：无效的工作凭证

我在笔记本电脑上测试 Slurm 的配置时遇到了一些问题。我试图slurmd在一台机器上运行四个实例，该机器也是我slurmctld运行的同一台机器。我有一个本地munged实例，以用户munge.的身份运行，slurmd并slurmctld以我的用户身份运行，这也是在中设置的/etc/slurm-llnl/slurm.config。所有slurmd实例都连接到slurmctld，我可以使用sbatch来启动一个简单的作业，回显“Yay！”并毫无问题地退出。当我尝试在分配的 shell 中使用时，会出现问题。salloc除了第一台启动的机器外，mpi...

Admin 2024-7-2

slurm

Slurm - 使用 cgroups 执行 GPU

我在一台机器（Ubuntu 18.04）上运行 slurm 19.05 来调度 GPU 任务。但是，我无法使用 cgroups 设置 gpu 强制执行。如果我设置约束设备=是在我的 cgroup.conf 文件中，TensorFlow 在运行时无法访问我的 GPUsrun --gres=gpu:1 run.sh相比之下，任务运行时可以独立于分配访问 gpu萨洛克， IE，salloc 运行. 运行 srun--gres=mps:50 运行.sh再次完美运行。这是我的slurm.conf： SlurmctldHost=gpu-node1 Epilog...

Admin 2024-6-25

slurm

AWS 上的 Slurm 节点设置为在启动时耗尽

我正在使用 CloudFormation 创建的 AWS 集群上配置 slurm。在启动时，一些节点被设置为“耗尽”状态，原因是“低套接字核线程数”。但是，集群中的所有节点都是相同的 EC2 实例类型，安装了相同的 slurm.conf 文件，并且来自相同的 AMI。只有部分节点最终处于“耗尽”状态，我看不到其中的规律。在我手动将“耗尽”节点的状态更新为“恢复”后，它们便可用于处理任务。有人见过这种情况吗？ ubuntu@ip-10-0-0-10:~$ sinfo PARTITION AVAIL TIMELIMIT NODES STATE NODEL...

Admin 2024-6-21

slurm

如何取消处于完成（CG）状态的作业？

我通常使用提交一些作业，sbatch并在使用后取消其中一些作业scancel。但是，它们处于状态CG，我无法从列表中删除这些作业。有什么办法可以摆脱这些CG工作吗？遗憾的是，我不是集群的管理员，也没有 root 密码。 ...

Admin 2024-6-19

slurm

AWS 上的 Slurm 返回 slurmstepd：错误：execve()：：没有此文件或目录

我在 AWS 上安装了突发事件驱动的 HPC 集群，使用泥浆根据本教程。通过此安装，我可以在 EC2 上的 Slurm 环境中突发实例并运行作业。运行后： #!/bin/bash #SBATCH --nodes=2 #SBATCH --ntasks-per-node=2 #SBATCH --cpus-per-task=1 #SBATCH --constraint=[us-east-1a] $sinfo返回： PARTITION AVAIL TIMELIMIT NODES STATE NODELIST all* up in...

Admin 2024-6-19

slurm

Ubuntu 18.10 并修改已安装的包-OpenMPI

我已经在 Ubuntu 18.10 上安装了openmpi-bin(OpenMPI 3.1)。我也在slurm同一台机器上运行，并且想重新编译或重新配置我的 OpenMPI 安装以应对 Slurm 功能。如果从源代码安装 OpenMPI，则需要--with-slurm使用一个设置。如何在使用apt（及其安装服务）安装 OpenMPI 期间访问或设置相同的设置？我现在应该卸载已安装的软件包、下载源代码并从头开始构建一个新的吗？ ...

Admin 2024-6-19