我正在尝试使用 RDMA 配置和测试 beegfs,如下所述:
https://community.mellanox.com/s/article/howto-configure-and-test-beegfs-with-rdma?t=1570613300675
我的测试配置:
操作系统:两台服务器上的 ubuntu 16.04(内核版本 4.15.0-65-generic)
OFED:MLNX_OFED_LINUX-4.6-1.0.1.1
beegfs 版本:1.7.3(最新)
适配器:ConnectX-3 VPI
服务器:两个类似的服务器系统(128GB RAM)。一个用作 BeeGFS 服务器,另一个用作 BeeGFS 客户端。在下面的示例中,使用带有 2x Intel Xeon CPU E5-2697v2(Ivy Bridge)的系统。
在我尝试重建客户端之前,一切都正常。重建过程给了我两个警告:
CC [M] /opt/beegfs/src/client/client_module_7/build/../source/common/net/sock/RDMASocket.o
/bin/sh: 1: [: 0005: unexpected operator
CC [M] /opt/beegfs/src/client/client_module_7/build/../source/common/net/sock/ibv/IBVSocket.o
/bin/sh: 1: [: 0005: unexpected operator
如果我尝试重新启动客户端,我会收到错误:
root@optiplex2:~# systemctl status beegfs-client.service
● beegfs-client.service - Start BeeGFS Client
Loaded: loaded (/lib/systemd/system/beegfs-client.service; enabled; vendor preset: enabled)
Active: failed (Result: exit-code) since wo 2019-10-09 10:07:35 CEST; 16s ago
Process: 17984 ExecStop=/etc/init.d/beegfs-client stop (code=exited, status=0/SUCCESS)
Process: 18007 ExecStart=/etc/init.d/beegfs-client start (code=exited, status=1/FAILURE)
Main PID: 18007 (code=exited, status=1/FAILURE)
okt 09 10:07:18 optiplex2 beegfs-client[18007]: modprobe: ERROR: could not insert 'beegfs': Unknown symbol in module, or unknown parameter (see dmesg)
okt 09 10:07:18 optiplex2 beegfs-client[18007]: - BeeGFS module autobuild
okt 09 10:07:19 optiplex2 beegfs-client[18007]: Building beegfs client module
okt 09 10:07:22 optiplex2 beegfs-client[18007]: /bin/sh: 1: [: 0005: unexpected operator
okt 09 10:07:23 optiplex2 beegfs-client[18007]: /bin/sh: 1: [: 0005: unexpected operator
okt 09 10:07:35 optiplex2 beegfs-client[18007]: modprobe: ERROR: could not insert 'beegfs': Unknown symbol in module, or unknown parameter (see dmesg)
okt 09 10:07:35 optiplex2 systemd[1]: beegfs-client.service: Main process exited, code=exited, status=1/FAILURE
okt 09 10:07:35 optiplex2 systemd[1]: Failed to start Start BeeGFS Client.
okt 09 10:07:35 optiplex2 systemd[1]: beegfs-client.service: Unit entered failed state.
okt 09 10:07:35 optiplex2 systemd[1]: beegfs-client.service: Failed with result 'exit-code'.
如果我不使用 OFED 驱动程序,一切都会正常。在这种情况下,使用 TCP/IP 堆栈而不是 RDMA。
有没有什么办法可以解决这个问题?我也尝试过旧版本的 OFED 驱动程序,但无法在我的系统上编译。
最好的,
雷姆科
答案1
在您的 /etc/beegfs/beegfs-client-autobuild.conf 中尝试此操作:
buildArgs=-j8 BEEGFS_OPENTK_IBVERBS=1 OFED_INCLUDE_PATH=/usr/src/ofa_kernel/default/include/