我正在使用无限带宽网络设置一个 Linux 集群,并且我是无限带宽领域的新手,非常欢迎任何建议!
我们目前正在使用 Mellanox OFED 驱动程序,但我们的 infiniband 卡很旧,无法被最新的 MOFED 驱动程序识别。所以我想知道为什么不使用发行版驱动程序(运行 CentOS7)。
使用其中一个会有什么区别? 我应该预期性能会下降吗?
谢谢
答案1
如果不使用供应商 OFED 发行版,在这种情况下是 Mellanox OFED,您不仅会遇到性能损失,还会遇到功能缺失和许多稳定性问题。
Infiniband 并不像以太网那样坚如磐石,Infiniband 的主要目标是提供低延迟结构,而不仅仅是大家通常认为的高吞吐量网络。
内置驱动程序(Mellanox 就是这么称呼发行版附带的 OFED 发行版的)充其量是不可靠的,如果您运行的卡比 Connect-X4 更旧,那么在需要时运行 IPoIB 时会遇到麻烦,只要保持启用状态最终会导致内核崩溃。性能很差,网络也不可靠。
还有一些替代方案,首先是 MLNX OFED 4.9,这是一个 LTS 版本,支持 Connect-X3 等旧卡。我会坚持使用它,因为它受支持,并且会长期受支持。
不同之处在于对以下硬件和技术的支持:
- ConnectX-3 Pro
- ConnectX-3
- 连接-IB
- RDMA 实验动词库(mlnx_lib)
从这里下载:https://www.mellanox.com/products/infiniband-drivers/linux/mlnx_ofed
如果 Mellanox OFED 的 LTS 版本不适合您,另一个解决方案是迁移到 Oracle Linux,采用 UEK(坚不可摧的企业内核)并使用其 RDMA 发行版。至少 Oracle 测试了这个 OFED 版本,他们的 Exadata 产品使用它。这里有可用的文档:https://docs.oracle.com/en/operating-systems/uek/6/relnotes6.2/ol_instav.html#uek6_install_rdma
答案2
“内置”驱动程序已通过 Linux 问答流程和发行版问答。但 MOFED 驱动程序尚未通过。
MOFED 中存在严重错误,导致我们的代码无法在其下运行,并且 MOFED 已禁用对旧硬件的支持。但它可以与内置/发行版驱动程序配合使用。
MOFED 是一款实验性软件。如果系统偶尔会崩溃,并且您想使用尚未成熟的尖端功能,那么 MOFED 可能很有用。