qfle3 驱动程序导致 VMWare 主机崩溃 - 已解决恢复到 bnx2i 旧驱动程序的问题

qfle3 驱动程序导致 VMWare 主机崩溃 - 已解决恢复到 bnx2i 旧驱动程序的问题

这种情况已经持续了一段时间。使用“QLogic 57810 10 Gigabit Ethernet Adapter”网卡的几台不同的主机(戴尔主机)在使用原生 qfle3 驱动程序时已经出现故障一段时间了。我们尝试禁用负载平衡队列,但没有任何积极的结果(主机不断崩溃)- 我们发现的唯一解决方案是恢复到 bnx2i 驱动程序。这肯定会导致主机 sop 崩溃。

我们正在排除硬件问题,因为这种情况发生在多台机器上 - 即使硬件零售商同意更换其中一些卡,但仍然没有运气。主机上的版本是 6.7.0,我们很难从 VMWare 获得直接答案 - 根据兼容性矩阵,Frimwares 没问题。

还有人遇到过这个问题吗?问题可能出在哪里?

答案1

编辑2019-03-01:更新的驱动程序已在 VMware 支持门户上发布。

我刚刚花了 7 个月的时间与 HPE、Broadcom/QLogic/Cavium/Marvell(无论他们现在是谁……)和 VMware 一起解决这个(或非常相似的?)问题。这是一个艰难的过程,也是一次非常糟糕的经历(就像 PSOD 一样)。它始于 2018 年 6 月至 2018 年 7 月,发生在具有不同配置的不同数据中心。由于 HPE 要求您使用 qfle3,而 vSphere 6.0(允许使用 bnx2)缺少一些关键功能,我处于进退维谷的境地。

有 2 个独立的问题(可能更多,但具体到我的问题):

  • iSCSI 卸载(正如您提到的 bnx2i)驱动程序不稳定。我听说过其他各种说法,但就我而言,主机在配置 iSCSI 后几秒或几分钟内就会出现 PSOD(通常导致启动循环,因为主机会在启动 iSCSI 登录期间崩溃)。我有 2018 年 12 月下旬的测试版驱动程序,现在运行良好。Marvell 应该会在 2019 年 1 月底(或 2 月初)在 QLogic 下载门户上发布稳定/测试/合格的驱动程序。解决方法:使用软件 iSCSI。
  • vSphere 6.7 RSS 模块中有一个错误,应该在 vSphere 6.7U2(2019 年春季)中修复。这会导致偶尔出现 PSOD、NMI 或只是网络连接丢失(通常在 vMotion 之后)。解决方法是禁用 vSphere RSS 负载平衡器esxcli network nic queue loadbalancer set --rsslb=disable -n vmnicX

就我而言,我必须将所有生产 NIC 切换为英特尔 NIC(不支持 iSCSI 和 RSS),但由于未来的一些要求,我继续推动这一案例。

相关内容