Ubuntu 12 崩溃并导致网络中断

Ubuntu 12 崩溃并导致网络中断

我们最近在网络上设置了一个新的 Ubuntu 12.04LTS 服务器。它尚未完全配置,因此除了sshd默认apache2安装外,它没有做太多事情。但今天晚上它似乎崩溃了。它没有响应网络或键盘。但最糟糕的是,它摧毁了整个网络。

我对 OSI 第 3 层以下的网络堆栈的了解非常有限,所以其余部分让我感到困惑。当这台机器物理连接到网络时,没有其他机器可以连接到外部互联网。当出现故障时,运行arp显示我们的网关的 IP 地址 ( 10.0.1.1) 被列为“无效”。将服务器从网络上拔下可以解决问题,重新插入又会再次出现问题。所以崩溃的服务器宣称自己拥有网关的 IP 地址?

在它引发问题时,什么都没有发生syslog。有什么想法可以找出问题所在,或者我们可以做些什么来防止它再次发生?我现在甚至都不想把机器重新连接到网络上。

**** 更新 ****

它再次崩溃了,我运行了tcpdump -penn arp(感谢 bahamat!)几分钟,得到了这个......(时间戳和重复的行被删除)

00:1e:65:f8:dc:24 > ff:ff:ff:ff:ff:ff, ethertype ARP (0x0806), length 60: Request who-has 10.0.1.1 tell 10.0.2.191, length 46
00:1e:65:f8:dc:24 > ff:ff:ff:ff:ff:ff, ethertype ARP (0x0806), length 60: Request who-has 10.0.1.44 tell 10.0.2.191, length 46
60:d8:19:d4:71:d6 > ff:ff:ff:ff:ff:ff, ethertype ARP (0x0806), length 60: Request who-has 10.0.1.1 tell 10.0.2.125, length 46
d4:9a:20:04:e9:78 > ff:ff:ff:ff:ff:ff, ethertype ARP (0x0806), length 42: Request who-has 192.168.1.1 tell 192.168.1.100, length 28

**** 更新 2 ****

当网络正常运行时,arping -c4 10.0.1.1返回以下内容:

ARPING 10.0.1.1
60 bytes from c0:c1:c0:77:25:8e (10.0.1.1): index=0 time=267.982 usec
60 bytes from c0:c1:c0:77:25:8e (10.0.1.1): index=1 time=422.955 usec
60 bytes from c0:c1:c0:77:25:8e (10.0.1.1): index=2 time=299.215 usec
60 bytes from c0:c1:c0:77:25:8e (10.0.1.1): index=3 time=366.926 usec

--- 10.0.1.1 statistics ---
4 packets transmitted, 4 packets received,   0% unanswered (0 extra)

当坏的服务器插入时,arping -c4 10.0.1.1返回:

ARPING 10.0.1.1

--- 10.0.1.1 statistics ---
4 packets transmitted, 0 packets received, 100% unanswered (0 extra)

**** 语境 ****

  • 10.0.x.x是主子网。
  • 10.0.1.1是主要的互联网网关
  • 10.0.1.44是一台打印机
  • 10.0.2.*设备均为笔记本电脑/工作站
  • 我不知道是什么在使用192.168.x.x子网——你的猜测至少和我的一样好。工作站上的虚拟机?配置错误的 WAP?有人重新共享 wifi?DHCP 失败的机器?
  • 有问题的 ubuntu 服务器的 MAC 地址以cd:80so 结尾,未在转储中列出。它应该通过 DHCP 来10.0.3.3

感谢您的帮助。ARP 对我来说完全是巫术。数据包只是发往 IP 地址,对吧?;)

答案1

刚刚遇到了完全相同的问题。突然间,我的大部分网络都瘫痪了。唯一还能用的是 WiFi,我只能连接到路由器,无法访问 WAN,而且有线 LAN 计算机都无法响应我的 ping。我多次重启路由器都无济于事,最后我只好拔掉所有以太网电缆。突然间它又能用了,重新连接电缆后一切都瘫痪了。经过反复试验,我找到了罪魁祸首:我的无头 Ubuntu 12.04 服务器。我可以通过插入电源来关闭网络,通过拔掉电源来恢复网络。最后我只好拔掉电源。当它恢复正常时,我检查了系统日志,令我大吃一惊的是,那里什么都没有;

Sep 17 21:21:44 *** Normal event occuring
Sep 17 21:22:16 *** Normal event occuring
Sep 17 21:22:48 *** Normal event occuring
Sep 17 21:23:20 *** Normal event occuring
Sep 17 22:45:36 Atlas kernel: imklog 5.8.6, log source = /proc/kmsg started.
Sep 17 22:45:36 Atlas rsyslogd: [origin software="rsyslogd" swVersion="5.8.6" x-pid="1048" x-info="http://www.rsyslog.com"] start
Sep 17 22:45:36 Atlas rsyslogd: rsyslogd's groupid changed to 103
Sep 17 22:45:36 Atlas rsyslogd: rsyslogd's userid changed to 101

确实很奇怪,也有点令人担忧。自从我第一次启动以来,我的服务器一直很稳定,但它不仅瘫痪了,还拖垮了整个网络。

答案2

好吧,我可以告诉你,192.168.1.x上的机器是发给苹果的MAC地址。

您是否在网关本身上接收到 ARP 请求?从交换机转储流量怎么样?听起来 Ubuntu 机器可能收到了它不应该收到的 ARP,这可能会使交换机感到困惑。

相关内容