Infiniband 驱动程序:包含 OFED 或发行版?

Infiniband 驱动程序:包含 OFED 或发行版?

我正在使用无限带宽网络设置一个 Linux 集群,并且我是无限带宽领域的新手,非常欢迎任何建议!

我们目前正在使用 Mellanox OFED 驱动程序,但我们的 infiniband 卡很旧,无法被最新的 MOFED 驱动程序识别。所以我想知道为什么不使用发行版驱动程序(运行 CentOS7)。

使用其中一个会有什么区别? 我应该预期性能会下降吗?

谢谢

答案1

如果不使用供应商 OFED 发行版,在这种情况下是 Mellanox OFED,您不仅会遇到性能损失,还会遇到功能缺失和许多稳定性问题。

Infiniband 并不像以太网那样坚如磐石,Infiniband 的主要目标是提供低延迟结构,而不仅仅是大家通常认为的高吞吐量网络。

内置驱动程序(Mellanox 就是这么称呼发行版附带的 OFED 发行版的)充其量是不可靠的,如果您运行的卡比 Connect-X4 更旧,那么在需要时运行 IPoIB 时会遇到麻烦,只要保持启用状态最终会导致内核崩溃。性能很差,网络也不可靠。

还有一些替代方案,首先是 MLNX OFED 4.9,这是一个 LTS 版本,支持 Connect-X3 等旧卡。我会坚持使用它,因为它受支持,并且会长期受支持。

不同之处在于对以下硬件和技术的支持:

  • ConnectX-3 Pro
  • ConnectX-3
  • 连接-IB
  • RDMA 实验动词库(mlnx_lib)

从这里下载:https://www.mellanox.com/products/infiniband-drivers/linux/mlnx_ofed

如果 Mellanox OFED 的 LTS 版本不适合您,另一个解决方案是迁移到 Oracle Linux,采用 UEK(坚不可摧的企业内核)并使用其 RDMA 发行版。至少 Oracle 测试了这个 OFED 版本,他们的 Exadata 产品使用它。这里有可用的文档:https://docs.oracle.com/en/operating-systems/uek/6/relnotes6.2/ol_instav.html#uek6_install_rdma

答案2

“内置”驱动程序已通过 Linux 问答流程和发行版问答。但 MOFED 驱动程序尚未通过。

MOFED 中存在严重错误,导致我们的代码无法在其下运行,并且 MOFED 已禁用对旧硬件的支持。但它可以与内置/发行版驱动程序配合使用。

MOFED 是一款实验性软件。如果系统偶尔会崩溃,并且您想使用尚未成熟的尖端功能,那么 MOFED 可能很有用。

相关内容