在 2 个节点上配置 MPI

在 2 个节点上配置 MPI

我正在尝试使用 openmpi 从 2 台多核计算机创建非常简单的“集群”。

我的问题是,我找不到任何关于此事的教程。我不想使用 Torque,因为对我来说没有必要,尽管所有教程都提供了有关 Torque 或 mpd(在 openmpi 实现中不存在)的配置详细信息。

您能给我一些提示或相关手册的链接吗?

我已经完成的步骤:
- openmpi 安装
- 网络配置(计算机互相看到)
- ssh 无密码登录到第二台计算机

我尝试使用 machinefiles,无需进一步配置,并且其中只有 2 个 IP。但初始化部分之后作业似乎根本没有启动。(MPI 似乎有效,因为我能够将作业分散到两台计算机的多个核心上,而无需它们之间进行通信)。

答案1

在如此少的机器上使用 OpenMPI 的最佳解决方案是使用 mpirun 或 mpiexec 命令,带或不带主机文件均可。这应该可行,而且您不需要第三方进程管理器(如 Torque 或 Slurm)。

如果您的 MPI 作业未启动,则可能是通信出了问题。通过创建仅包含本地计算机的主机文件来测试这一点,该文件应将所有 MPI 进程分配给本地主机。此外,在运行您自己的 MPI 作业之前,请先从 Open MPI 提供的示例作业开始。

配置 Open MPI 可能相当繁琐。在配置脚本中,明确说明您需要哪些底层通信支持(例如 sm 和 tcp)。运行作业时,指定 MPI 应使用哪些通道。通过明确指定这些值,如果出现错误,MPI 将返回错误。

要开始使用 mpirun,请查看最新版本的 Open MPI 文档:http://www.open-mpi.org/doc/current/man1/mpirun.1.php

相关内容