我正在将服务器从 CentOS 7“升级”到 Rocky 8。此服务器是 1U Supermicro SYS-1029U-TRT,作为 HPC 的一部分工作,并具有两个以太网和一个 Infiniband 网络接口。其中一个以太网接口用于 HPC,另一个用于服务器机房网络和互联网访问。在启动 CentOS 服务器的 VM 副本后,我开始全新安装 Rocky 8。我重用了之前已配置并格式化每个分区的分区表和 mdadm RAID。在安装和初始设置网络接口后,服务器在处理通过“外部”接口的任何网络流量时速度异常缓慢。这个问题在 CentOS 下从未出现过,并且有多种症状。
- DNS 查询未完成。在本地网络上的主机上运行 ping 或尝试通过 curl 或 wget 从 Internet 或本地 Web 服务器下载文件时,这种情况尤其明显。
- 仅使用 IP 与服务器之间的 ping 操作要么会失败,要么会在几个(通常约 4 个)数据包失败后开始工作。
- 与服务器的 SSH 连接大多会失败,几次尝试都会收到密码提示,但登录始终无法完成。
我尝试了许多故障排除步骤,但仍然没有得到明显的解决。
- 我验证了 IP 设置、路由表和 resolv.conf 都是正确的。
- 我断开了两个 HPC 网络接口。我还尝试过连接但停用接口、不进行任何配置,以及连接并配置接口。
- 我验证了以太网驱动程序是否适用于硬件。系统包括两个 10Gbps Intel X540-AT2 接口,使用内核的 ixgbe 驱动程序。我还下载并安装了最新版本的英特尔驱动程序。
- 我验证了交换机端口是否配置正确,包括 VLAN 和 MTU 设置。
- 我通过与服务器进行 ping 来测试另外两个接口,均没有问题。
- 我断开了接口与常用交换机的连接,并使用新电缆将其连接到同一 VLAN 上的附近交换机。
这些步骤都没有改变任何事情。我没有主意了,正在寻找发生这种情况的更多可能原因。如果需要任何信息,我很乐意按要求添加。
安装 CentOS 7 时未报告的一个先前问题是,有时 SSH 连接会“暂停”长达一分钟,然后才能再次使用。这与当前问题类似,这让我认为这是一个硬件问题。
以下是一些 ip 命令输出,ip a 和 ip route,以显示配置情况。此外,在 nmtui 中进行配置时,我在 eno2 和 ib0 连接上启用了“从不将此网络用作默认路由”、“忽略自动获取的路由”和“忽略自动获取的 DNS 参数”设置。在 eno1 连接上未启用任何这些设置。
[root@hostname ~]# ip a
1: lo: <LOOPBACK,UP,LOWER_UP> mtu 65536 qdisc noqueue state UNKNOWN group default qlen 1000
link/loopback 00:00:00:00:00:00 brd 00:00:00:00:00:00
inet 127.0.0.1/8 scope host lo
valid_lft forever preferred_lft forever
inet6 ::1/128 scope host
valid_lft forever preferred_lft forever
2: eno1: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1500 qdisc mq state UP group default qlen 1000
link/ether ac:1f:6b:c9:b3:6e brd ff:ff:ff:ff:ff:ff
altname enp24s0f0
inet 10.0.21.150/22 brd 10.0.23.255 scope global noprefixroute eno1
valid_lft forever preferred_lft forever
3: eno2: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1500 qdisc mq state UP group default qlen 1000
link/ether ac:1f:6b:c9:b3:6f brd ff:ff:ff:ff:ff:ff
altname enp24s0f1
inet 10.33.0.110/22 brd 10.33.3.255 scope global noprefixroute eno2
valid_lft forever preferred_lft forever
4: ib0: eno2: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 4092 qdisc mq state UP group default qlen 256
link/infiniband 00:00:01:20:fe:80:00:00:00:00:00:00:0c:42:a1:03:00:c0:af:08 brd 00:ff:ff:ff:ff:12:40:1b:ff:ff:00:00:00:00:00:00:ff:ff:ff:ff
inet 10.33.4.110/22 brd 10.33.7.255 scope global noprefixroute ib0
valid_lft forever preferred_lft forever
[root@hostname ~]# ip route
default via 10.0.20.1 dev eno1 proto static metric 100
10.0.20.0/22 dev eno1 proto kernel scope link src 10.0.21.150 metric 100
10.33.0.0/22 dev eno2 proto kernel scope link src 10.33.0.110 metric 101
10.33.4.0/22 dev ib0 proto kernel scope link src 10.33.4.110 metric 150
编辑 1:添加了更多信息,CentOS 问题。
编辑 2:添加了请求的 ip 命令输出和一些 nmtui 设置。
答案1
事实证明这是一个真正的网络问题,MAC 地址冲突。
当我创建虚拟机副本时,我从硬件中复制了接口的 MAC 地址,目的是在虚拟机被验证为正常工作后更改它。然后我忘了更改它。
从虚拟机中删除重复的 MAC 地址并允许其随机化即可解决问题。