Debian Dmesg 错误-关于 eth1 中断,这个输出意味着什么?

Debian Dmesg 错误-关于 eth1 中断,这个输出意味着什么?

NIC 退出的故事;

我将服务器的 dmesg 输出结尾放入粘贴箱

该服务器(PowerEdge 1850)有两个 NIC,eth0 和 eth1。eth1 上定义了几个 VLAN,而这些 VLAN 又位于不同的网桥中,一个网桥有多个 IP。eth1 是面向公众的接口。eth0 用于后端/管理访问。

服务器处于“离线”状态,即停止为公共请求提供服务,我收到了警报。我通过 SSH 连接到 eth0 上的管理 IP,发现服务器已启动,负载低,磁盘空间、RAM 和 CPU 周期充足等。所有服务均已启动并运行,但服务器未提供任何网页。

就在那时,我检查了 dmesg,看到了上面的输出。看来 eth1 出了问题,它不会发送任何数据包,但它正在接收数据包。dmesg 输出中有一些“重置适配器”消息,所以我假设服务器正在“自我修复”?

[10716872.816012] e1000 0000:07:08.0: eth1: Reset adapter

我跑去tcpdump看看发生了什么事(我把输出放错了地方!)。但是,我可以看到,面向 eth1 上的公共 VLAN 子接口的默认网关正在为分配给服务器的公共 IP 发送 ARP,但它没有发送任何响应。

所以这可能是面向公众的服务无法正常工作的原因。我重新启动了界面,sudo ifdown eth1 && sudo ifup eth1成功执行,但没有帮助。

我检查了 arp 表;

user@server:~$ arp -n
Address                  HWtype  HWaddress           Flags Mask            Iface
5.5.5.6                  (incomplete)                                      br12

看到这个不完整的地址,我尝试了一下(其实并没有想到它会起作用),并手动添加了 5.5.5.6 默认网关的 MAC 地址。但是没有起作用。

生产停机时间已经有几分钟了,所以我稍后重新启动了服务器,重新启动后一切都恢复正常。

下面我发布了 /etc/network/interfaces 的内容,但是我需要一些帮助来理解我上面链接的 pastebin 条目。在工作日中间,eth1 退出日常工作的可能原因是什么?

allow-hotplug eth0 
allow-hotplug eth1 
allow-hotplug eth1.1
allow-hotplug eth1.2

auto eth0
iface eth0 inet static
address 10.0.1.25
netmask 255.255.255.0

auto eth1
iface eth1 inet manual

auto eth1.2
iface eth1.2 inet manual
vlan_raw_device eth1

auto br12
iface br12 inet static
address 10.0.0.25
netmask 255.255.255.0
bridge_ports eth1.2
bridge_stp off

auto eth1.1
iface eth1.1 inet manual
vlan_raw_device eth1

auto br11
iface br11 inet static
address 5.5.5.5
netmask 255.255.255.248
gateway 5.5.5.6
bridge_ports eth1.118
bridge_stp off

auto br11:0
iface br11:0 inet static
address 5.5.5.4
netmask 255.255.255.248

auto br11:1
iface br11:1 inet static
address 5.5.5.3
netmask 255.255.255.248

用于调试目的;

user@server:~$ uname -a
Linux server.site.com 3.4.10 #1 SMP Thu Sep 13 13:12:24 BST 2012 x86_64 GNU/Linux
user@server:~$ cat /etc/issue
Debian GNU/Linux 6.0 \n \l

该服务器已运行 3 天 17 小时,dmesg/kern.log/message/syslog 中没有错误,运行良好。lshwNIC 的详细信息。

答案1

我认为这是一个内核错误,可能是驱动程序错误或硬件错误。

您可以尝试寻找内核错误、更新内核等等。

相关内容