在 LAN 中的多台服务器上使用 Slurm 等 HPC 管理器

Question

是的，这是一个计算集群。我对此有一个广义的定义，即多个计算节点承担相同的工作负载。大型构建场具有多个运行计算工作器的主机，符合条件。TOP500 列表中的庞大系统也符合条件。

更重要的是，利用 slurm 管理多个节点的能力。否则，一个控制器只管理自己会相当复杂，因为与更简单的系统相比，它的功能并不多。添加所有节点，并将它们分成多个分区。

请求多个节点的作业要求程序能够感知多个节点，就像 MPI 一样。对于常规的不感知程序，只需将请求保留到一个节点即可。

存储，您需要设计一些东西来将文件传输到节点。通常选项包括：

Answer 1

是的，这是一个计算集群。我对此有一个广义的定义，即多个计算节点承担相同的工作负载。大型构建场具有多个运行计算工作器的主机，符合条件。TOP500 列表中的庞大系统也符合条件。

更重要的是，利用 slurm 管理多个节点的能力。否则，一个控制器只管理自己会相当复杂，因为与更简单的系统相比，它的功能并不多。添加所有节点，并将它们分成多个分区。

请求多个节点的作业要求程序能够感知多个节点，就像 MPI 一样。对于常规的不感知程序，只需将请求保留到一个节点即可。

存储，您需要设计一些东西来将文件传输到节点。通常选项包括：

相关内容