RHEL 6.3 上两台服务器之间的无交换机 Infiniband

RHEL 6.3 上两台服务器之间的无交换机 Infiniband

我有 2 台运行 RHEL 6.3 的服务器,它们有 2 个端口 Infiniband 卡

>lspci | grep -i infini
07:00.0 InfiniBand: QLogic Corp. IBA7322 QDR InfiniBand HCA (rev 02)

我有兴趣绕过 Infiniband 交换机(我没有)将它们直接连接起来。快速谷歌搜索显示,至少在某些配置中这是可能的

我安装了所有 RedHat Infiniband 软件包yum groupinstall“Infiniband 支持”。但是,ibv_devinfo 显示每张卡上的两个端口都处于关闭状态,这表明电缆未连接。但电缆连接,尽管卡上的 LED 灯不亮(这不是一个好兆头)。另一个让我感到困惑的是,根据,RedHat 没有附带联邦教育与发展办公室软件包,由于 RedHat 不支持这些软件包,我不太愿意从源代码安装它们... 那么我该怎么办呢?我的问题是:

  1. 是否可以按照我上面描述的方式在两台服务器之间建立无交换机/直接 Infiniband 连接?
  2. 如果可能的话,我是否必须使用 OFED 软件包或者我是否可以仅使用 RHEL 附带的软件包来配置所有内容。
  3. 为什么即使电缆已连接,我的服务器上的 LED 也会熄灭?

如有任何补充意见/建议/指点,我们将不胜感激。

PS我关注了本指南了解安装说明。我的操作系统清楚地识别了 Infiniband 卡,并且 rdma 服务正在运行。

更新:我已经安装了 opensm。当我运行它时,它显示:

OpenSM 3.3.13
Command Line Arguments:
 Log File: /var/log/opensm.log
-------------------------------------------------
OpenSM 3.3.13

Entering DISCOVERING state

Using default GUID 0x1175000076e4c8
SM port is down

并停留在那个点。

更新 2: 我无法使我的配置与 RedHat 软件包配合使用。openfabrics 的 OFED 软件包也不起作用。但我找到了英特尔(今年早些时候收购了 QLogic)的官方驱动程序,它可以工作。有点,因为即使我让卡工作并相互通信,重新启动后它们也不会回到 PORT_ACTIVE 状态。好吧,我可能会发布另一个关于它的问题。

答案1

回复较晚,但这实际上是英特尔驱动程序中的一个已知错误。

尝试在启动后运行此命令:

ibportstate -D 0 1 enable

答案2

您可能应该尝试寻找由卡的制造商 QLogic 提供的驱动程序。

答案3

  1. 是的
  2. 是的,RHEL 6.3 中的软件包应该可以工作
  3. 这是一个很好的问题

“ibstat”的输出显示什么?端口的物理状态是否关闭?答案可能是“是”。我认为您的电缆或连接存在某种问题。运行 SM 之前,ibv_devinfo 中的端口状态应为 PORT_INIT。PORT_DOWN 表示您没有链接。

答案4

这是一个老问题,但这是我的答案。

1) 您是否已为该卡加载内核驱动程序?应该是 ib_qib

尝试:

lsmod |查看 ib_qib 的结果

如果尚未加载,请将其配置为在启动时加载 /etc/modules 或 redhat 标准用于此类内容的任何内容。(在基于 debian 的系统中,它为 /etc/modules)。

此外,如果您想运行 IPoIB,则需要加载该模块。这是我针对您的情况推荐的最低要求。

ib_qib
rdma_ucm
ib_umad
ib_uverbs
ib_ipoib

2) 确保子网管理器正在运行。您需要它在两个端口上运行。因此,您将在进程列表中看到子网管理器的两个副本正在运行,每个端口一个。

相关内容