我的硬件是全新的华硕 RS72A-E12-RS24U 服务器,配备两个 AMD EPYC 9654 CPU。我的有线网络适配器有问题。网卡是 Broadcom N210TP。这是一张低调的 OCP 3.0 10g 卡,带有两个 RJ-45 端口。我有一个全新的 Ubuntu 22.04.2 LTS 安装,直接从 USB 棒安装,并接受软件更新和第三方驱动程序。
我使用的是默认网络配置,由 NetworkManager 自动管理。安装完所有软件更新并启动后,系统识别到 10G 接口,成功以 10,000 Mb/s 的速度连接。但在启动两分钟内,系统链接突然断开。我仍然可以使用主板上内置的 1G 网络连接访问系统。(我使用 DHCP 根据 MAC ID 为两个接口分配不同的 IP 地址,因此网络上有两个具有相同 IP 地址的设备不会导致问题)。基于这一事实,我认为 NetworkManager 仍然正常工作。
我在 askubuntu.com 和其他网上阅读了许多其他文章,其中提到了类似的问题,尤其是 Broadcom NIC。我尝试了最常用的推荐解决方案,特别是安装 linux-modules-extra。我运行的是内核版本 5.19.0-43-generic,输出
sudo dpkg -s linux-modules-extra-$(uname -r)
为 Package: linux-modules-extra-5.19.0-43-generic Status: install ok installed
我遇到的问题的最好证据来自运行$ sudo lshw -c network
产生输出的命令
*-network:0 UNCLAIMED
description: Ethernet controller
product: BCM57416 NetXtreme-E Dual-Media 10G RDMA Ethernet Controller
vendor: Broadcom Inc. and subsidiaries
physical id: 0
bus info: pci@0000:41:00.0
我得到的另一个线索来自 tty 模式下物理终端的会话。命令提示符处有一个闪烁的光标,突然出现了一条短信。我用手机拍了张照片,上面写着:
bxnt_en 0000:41:00.0 (unnamed net_device) (uninitialized) Error (timeout: 500015)
这是在另一个会话中,其中 10G 适配器首次被识别了几分钟。我相信其他研究者已经解决了这个问题,bnxt_en 是许多 Broadcom 有线网络适配器的内核驱动程序。
我希望 askubuntu 社区能对这里出了什么问题以及如何修复它有一些想法。我的第一个猜测是驱动程序没有问题,否则 NIC 怎么可能在断开连接之前被识别并成功连接几分钟?我的假设是它是一个需要更换的坏硬件。我是否错过了其他软件配置或驱动程序相关的故障排除步骤?我是否有足够的证据将其发回 Broadcom 并请求 RMA?
谢谢,
-迈克尔
ps:我从 2018 年开始成为 Ubuntu 用户,社区为学习和解决问题提供了巨大的资源,尤其是这个网站上的帖子。