我刚刚更换了 Dell PowerEdge R410 的主板,它是我们的虚拟服务器之一(运行 Ubuntu 10.04.3 LTS)。我对 Linux 还不太熟悉,更换后网络完全中断,这让我非常惊讶。另一个免责声明是,我一开始并没有构建我们的虚拟服务器,对 Linux-KVM 的工作原理了解甚少。更换主板后,我运行 LifeCycle Controller 应用程序并应用了各种升级(其中最值得注意的是 NIC 的固件升级)。经过大量研究,我终于设法通过编辑 /etc/udev/70-persistent-net.rules 文件“修复”了网络。在该文件中,我删除了之前主板的两个旧 Broadcom (bnx2) 条目,然后将新的 bnx2 eth2 和 eth3 分别重命名为 eth0 和 eth1。然后我将 eth0 和 eth1 移到文档顶部。 (igb) 条目适用于当前未使用的基于 PCI 的 Intel 千兆位 NIC。以下是我的 70-persistent-net.rules 文件的内容:
# This file was automatically generated by the /lib/udev/write_net_rules
# program, run by the persistent-net-generator.rules rules file.
#
# You can modify it, as long as you keep each rule on a single
# line, and change only the value of the NAME= key.
# PCI device 0x14e4:0x163b (bnx2)
SUBSYSTEM=="net", ACTION=="add", DRIVERS=="?*", ATTR{address}=="78:2b:cb:20:9d:71", ATTR{dev_id}=="0x0", ATTR{type}=="1", KERNEL=="eth*", NAME="eth0"
# PCI device 0x14e4:0x163b (bnx2)
SUBSYSTEM=="net", ACTION=="add", DRIVERS=="?*", ATTR{address}=="78:2b:cb:20:9d:72", ATTR{dev_id}=="0x0", ATTR{type}=="1", KERNEL=="eth*", NAME="eth1"
# PCI device 0x8086:0x10c9 (igb)
SUBSYSTEM=="net", ACTION=="add", DRIVERS=="?*", ATTR{address}=="90:e2:ba:0c:7e:f9", ATTR{dev_id}=="0x0", ATTR{type}=="1", KERNEL=="eth*", NAME="eth2"
# PCI device 0x8086:0x10c9 (igb)
SUBSYSTEM=="net", ACTION=="add", DRIVERS=="?*", ATTR{address}=="90:e2:ba:0c:7e:f8", ATTR{dev_id}=="0x0", ATTR{type}=="1", KERNEL=="eth*", NAME="eth3"
这解决了网络完全中断的问题(之前无法 ping 通网关),但一个更严重的问题仍然存在,即服务器硬件随机重启。我无法轻松重现崩溃,但它需要启动机器上运行的 5 个客户操作系统,然后执行 Splunk 查询/ping/运行 X11 转发到 puTTY 等。硬件本身通过了所有自检,戴尔技术人员审查了我收集的 DSET,并提到硬件方面一切看起来都很好。
这是我的 /etc/network/interfaces 文件:
auto lo
iface lo inet loopback
auto eth0
iface eth0 inet manual
auto eth1
iface eth1 inet manual
# 10.1.225.x network
auto br0
iface br0 inet static
address 10.1.225.12
netmask 255.255.255.0
network 10.1.225.0
broadcast 10.1.225.255
gateway 10.1.225.1
bridge_ports eth0
bridge_fd 9
bridge_hello 2
bridge_maxage 12
bridge_stp off
#vlan 231
auto eth1.231
iface eth1.231 inet manual
up ifconfig eth1.231 up
#KVM bridge, vlan 231, via eth1
iface br231 inet static
bridge_ports eth1.231
bridge_fd 9
bridge_hello 2
bridge_maxage 12
bridge_stp off
##vlan 229
#auto eth1.229
#iface eth1.229 inet manual
# up ifconfig eth1.229 up
##KVM bridge, vlan 229, via eth1
#auto br229
#iface br229 inet manual
# bridge_ports eth1.229
# bridge_maxwait 5
# bridge_fd 1
# bridge_stp on
#
# !!!!! NOTE (MGRACE): This *is* used !!!!!
#
#No! Unused
auto br1
iface br1 inet manual
bridge_ports eth1
bridge_fd 9
bridge_hello 2
bridge_maxage 12
bridge_stp off
#auto br2
#iface br2 inet manual
# bridge_ports eth1
# bridge_fd 9
# bridge_hello 2
# bridge_maxage 12
# bridge_stp off
#auto br3
#iface br3 inet manual
# bridge_ports eth1
# bridge_fd 9
# bridge_hello 2
# bridge_maxage 12
# bridge_stp off
我扫描了所有我能找到的日志,但还没有找到可以跟踪的线索 =(。戴尔技术人员提到这应该像更改虚拟机管理程序的 MAC 地址一样简单,但直到现在我都无法弄清楚如何做到这一点。非常感谢您的帮助,我很乐意提供任何可能有用的其他信息。
谢谢,-Snipe
答案1
好消息:原来是服务器内的一个配电块故障导致了随机重启。如果不是 2 个星期一前问题急剧恶化,我根本无法弄清楚,这才使得戴尔技术人员和我最终找到了问题根源。抱歉大家误诊了!=)
-狙击