hpc

在 HPC 集群上的 bash 脚本中加载模块

qsub我在标准大学集群上提交了以下 bash 脚本， #!/bin/bash #$ -cwd # Set the working directory for the job to the current directory #$ -pe smp 1 # Request 1 core #$ -l h_rt=1:0:0 # Request 1 hour runtime #$ -l h_vmem=100M # Request 1GB RAM module load xorg-utils/X11R7.7 module load ...

Admin 2024-11-25

hpc

在 Python 脚本中动态检查和分配 SLURM 节点

我有一个计算量很大的模拟函数，希望将其分布在多节点集群中。代码如下所示： input_tasks = [input_0, input_1, ..., input_n] for i in input_tasks: expensive_function(i) 我正在从具有高计算能力的节点运行代码，并希望将函数输入分发到具有不同计算能力的许多节点。最高计算能力的节点应优先考虑，并且如果它们空闲，则始终接手下一个任务。下面是我希望执行的操作的伪代码。 input_tasks = [input_0, input_1, ..., input_n] availa...

Admin 2024-11-18

hpc

挂载的文件在哪台计算机上执行？

这可能是几个问题，但我觉得这是一个类似的问题。挂载的可执行文件在哪台计算机上执行？这会随着sshfs、nfs或而改变吗ln？例如，如果您有存储服务器和计算服务器，那么存储服务器上的可执行包是否可以在计算服务器上运行？ ...

Admin 2024-11-18

hpc

我如何将交互式瞬时 PBS 会话端口绑定到头节点，然后将头节点端口绑定到我的本地机器？

简而言之：我如何将交互式瞬时 PBS 会话端口绑定到头节点，然后将头节点端口绑定到我的本地计算机？因此，三台机器的端口绑定链。更多细节：免责声明：我不完全确定我是否理解端口绑定和转发之间的细微差别，因此如果我说的话听起来不对，请认为是我的错。我有 3 台机器，涉及以下变量：机器接近性超级用户访问类型持久的笔记本电脑当地的是的 OpenSUSE 是的头节点偏僻的不 PBS 头节点是的交互节点偏僻的不 PBS 互动环节不我可以ssh username@<ip-address> -...

Admin 2024-11-17

hpc

为什么“module load intel”无法加载 libfftw3？

我在集群 (centos) 中尝试运行一个程序 (pw.x)，该程序需要加载三个模块：intel、impi 和 quantum-espresso。现在，我收到一条错误消息，提示 pw.x: error while loading shared libraries: libfftw3.so.3: cannot open shared object file: No such file or directory 因此，我运行了一个ldd pw.x命令来检查发生了什么，然后我发现： linux-vdso.so.1 => (0x00007fff8158300...

Admin 2024-11-5

hpc

HPC集群中的网络管理交换机和数据传输交换机

图中显示的是戴尔针对具有 AI 工作负载的 HPC 的经过验证的设计。我们在 HPC 设计中使用此参考。该图取自戴尔的白皮书第 12 页：经过 HPC 验证的 AI 和数据分析设计据我所知，S3048-ON 交换机管理节点之间的通信，而 S5232F-ON 管理节点之间的数据流/传输。在图中，两个交换机都连接到管理、计算和存储节点。我想知道这些是如何实际实现的。任何帮助都是有价值的。谢谢 ...

Admin 2024-11-1

hpc

Windows 找不到 SSHFS

在 Windows 10 上映射网络驱动器时，安装 SSHFS-Win 和 WinFsp 后，我收到错误消息“Windows 找不到 ssfhs”。知道为什么会发生这种情况吗？以下是导致该消息的步骤编辑：下列的这次讨论我可以通过命令行将 SFTP 映射为 Windows 上的驱动器，方法是 cd C:\Program Files\SSHFS-Win\bin set CYGFUSE=WinFsp; set PATH=C:\Program Files\SSHFS-Win\bin sshfs.exe -f -o idmap=user USER@SERVER: ...

Admin 2024-10-26

hpc

为什么非root安装的软件可以在整个集群中运行？

我最近在一个有十几个节点（每个节点有几个核心）的集群上的帐户文件夹中本地安装了一个新的 python3 和另一个 python 包。我最初以为我只能在安装程序的节点上运行程序，该节点大概是集群的门户节点，即我登录的地方。但是，我注意到我甚至可以提交在集群上的任何节点上运行此类程序的作业。我还确保我确实使用的是新安装的 python3.x，而不是很久以前已经存在的 python2.x。这发生在两个不同的集群上（一个使用 PBS 作业系统，另一个使用 LSF Lava）。那么为什么这是可能的呢？ ...

Admin 2024-10-15

hpc

对于 SSD 来说，写入和读取是否会相互竞争？

我有一个磁盘 I/O 密集型应用程序，其中我同时进行大量读取和写入。对于旋转磁盘，存在争用是正常的，因为指针必须大量移动，但 SSD 因其访问权限而应该对此更具弹性。但是，如果有足够的 I/O，我们可能会使控制器或通道饱和。是否有博客/资源/白皮书描述如何在 SSD 中读取和写入内容，以及是否有办法查看我们是否接近 Linux 应用程序的此限制？谢谢 Niteya ...

Admin 2024-10-6

hpc

passwd：使用 ssh 和公钥的身份验证令牌操作错误

我正在使用ssh公钥（保存在本地计算机中）连接到 HPC 集群，如下所示： $ ssh -i ~/narvi_key/xenial-narvi-key [email protected] Enter passphrase for key '/home/xenial/narvi_key/xenial-narvi-key': 当我输入当前密码时，我收到有关密码已过期的以下消息： You are required to change your password immediately (password aged) Last login: Sun O...

Admin 2024-9-21

hpc

如何使用 $SLURM_JOB_NODELIST 在 SLURM 中创建主机文件

我可以访问每个节点上有 40 个核心的 HPC。我有一个批处理文件来运行总共 35 个代码，这些代码位于单独的文件夹中。每个代码都是一个开放的 mp 代码，每个代码都需要 4 个核心。那么我该如何分配资源，以便每个代码都有 4 个核心。请告诉我如何使用 $SLURM_JOB_NODELIST 这个环境，因为我知道这会给出队列中分配的节点列表。基本上，我的想法是在每个文件夹中创建节点文件，然后在 mpirun 中使用它。我是一名物理专业的学生，对 bash 脚本了解不多。 #!/bin/bash #SBATCH --error=job.err #SB...

Admin 2024-9-10

hpc

在 Cygwin 上使用 Rsync 时出现错误

我正在使用 rsync 将数据传输到 HPC 集群，使用适用于 Windows 7 的 Cygwin。我键入以下命令将文件夹从我的计算机传输到 HPC 远程服务器。 rsync -rzv /cygdrive/C/Users/LSRATHORE/Desktop/data_wf [email protected] :/home/lsrathore/test 这会在 Cygwin 中产生以下错误行： rsync: connection unexpectedly closed (0 bytes received so far) [sender] C:...

Admin 2024-7-30

hpc

slurmd：无效的工作凭证

我在笔记本电脑上测试 Slurm 的配置时遇到了一些问题。我试图slurmd在一台机器上运行四个实例，该机器也是我slurmctld运行的同一台机器。我有一个本地munged实例，以用户munge.的身份运行，slurmd并slurmctld以我的用户身份运行，这也是在中设置的/etc/slurm-llnl/slurm.config。所有slurmd实例都连接到slurmctld，我可以使用sbatch来启动一个简单的作业，回显“Yay！”并毫无问题地退出。当我尝试在分配的 shell 中使用时，会出现问题。salloc除了第一台启动的机器外，mpi...

Admin 2024-7-2

hpc

HPC 可视化节点 GPU 选择

在大多数 HPC 可视化节点上，我们发现了 nvidia tesla 卡。P100 就是其中之一。我不太明白为什么。Nvidia Tesla 显卡是按照 nividia 的说法设计用于计算的文档，而不是渲染。它们甚至需要特定的配置才能正确渲染。为什么不使用 Titan 卡？Titan RTX 似乎非常适合这种用例。相关（但不重复）：“科学 GPU” 和“游戏 GPU” 之间有什么区别？ ...

Admin 2024-6-23

hpc

mpirun tcp_peer_send_blocking：向套接字 X 发送（）失败：管道损坏（32）

我正在使用由 4 台机器（主机器、从机器 1、从机器 2、从机器 3 和从机器 4）组成的 HPC，我尝试在 HPC 结构上运行脚本： mpirun -report-uri - -host master,slave1,slave2,slave3,slave4 --map-by node-np 50 hellompi 但我遇到了这个错误信息： 657129472.0;tcp://10.1.1.1,10.1.2.1,10.1.3.1,10.1.4.1:54761 [charlotte-ProLiant-DL380-Gen10-slave1:07172] ...

Admin 2024-6-19