Ubuntu 12.04.2 LTS 服务器 - 随机挂起且无日志记录

Ubuntu 12.04.2 LTS 服务器 - 随机挂起且无日志记录

我的服务器随机挂起并变得无响应,没有任何日志记录(dmesg、syslog、kern.log、boot.log 和消息)。我无法预测什么时候会发生这种情况。有时服务器运行良好几个月,突然又开始发生这种情况。上周,这种情况发生了 8 次以上。这种情况已经发生了一年多了。

内核日志总是一样的:

Jan 24 03:20:34 voyager dnsmasq-dhcp[4476]: DHCPREQUEST(br100) 192.168.145.3 fa:16:3e:4e:e0:d5
Jan 24 03:20:34 voyager dnsmasq-dhcp[4476]: DHCPACK(br100) 192.168.145.3 fa:16:3e:4e:e0:d5 viaapp
Jan 24 03:20:37 voyager dnsmasq-dhcp[4476]: DHCPREQUEST(br100) 192.168.145.9 fa:16:3e:62:09:86
Jan 24 03:20:37 voyager dnsmasq-dhcp[4476]: DHCPACK(br100) 192.168.145.9 fa:16:3e:62:09:86 web-sistemas
Jan 24 03:20:38 voyager dnsmasq-dhcp[4476]: DHCPREQUEST(br100) 192.168.145.16 fa:16:3e:79:dd:f8
Jan 24 03Jan 24 03:22:47 voyager kernel: imklog 5.8.6, log source = /proc/kmsg started.
Jan 24 03:22:47 voyager rsyslogd: [origin software="rsyslogd" swVersion="5.8.6" x-pid="2040" x-info="http://www.rsyslog.com"] start
Jan 24 03:22:47 voyager rsyslogd: rsyslogd's groupid changed to 103
Jan 24 03:22:47 voyager rsyslogd: rsyslogd's userid changed to 101
Jan 24 03:22:47 voyager rsyslogd-2039: Could not open output pipe '/dev/xconsole' [try http://www.rsyslog.com/e/2039 ]
Jan 24 03:22:47 voyager kernel: [    0.000000] Initializing cgroup subsys cpuset
Jan 24 03:22:47 voyager kernel: [    0.000000] Initializing cgroup subsys cpu
Jan 24 03:22:47 voyager kernel: [    0.000000] Linux version 3.2.0-60-generic (buildd@toyol) (gcc version 4.6.3 (Ubuntu/Linaro 4.6.3-1ubuntu5) ) #91-Ubuntu SMP Wed Feb 19 03:54:44 UTC 2014 (Ubuntu 3.2.0-60.91-generic 3.2.55)
Jan 24 03:22:47 voyager kernel: [    0.000000] Command line: BOOT_IMAGE=/vmlinuz-3.2.0-60-generic root=UUID=c8dba39e-4d36-4528-9432-d610fce72407 ro crashkernel=384M-2G:64M,2G-:128M console=tty1 console=ttyS0,115200n8

该服务器配有 Intel S5500BC 主板、Xeon E5630 Intel CPU、32GB RAM 和 4 个 Seagate Barracuda 2TB 7200 RPMST2000DM001。我使用的是内核为 3.2.0-60-generic 的 Ubuntu 12.04.2 LTS,硬盘是使用 md 的软 RAID 10 的一部分。我还使用 kvm 和 libvirt 运行一些虚拟机。

一开始我以为是 I/O 使用问题。我使用许多工具(包括 dd、stress 和我用 bash/python 开发的一些脚本)对 CPU、I/O、HDD I/O 和内存分配进行了压力测试。但我从未能够重现该问题。

所有硬盘都通过了smartctl的短自检和长自检。没有任何错误消息。

我还安装了 linux-crashdump,但它也无法记录任何内容。我每两秒运行一次脚本来收集传感器输出,温度似乎正常 - 低于 55 摄氏度。

我已经更换了主板、RAM 和硬盘,但问题仍然存在。因此,我猜想这与硬件无关,并且由于某种原因操作系统无法写入日志。我还使用 memtest 测试了 RAM,它成功通过了四个周期。

我注意到的唯一一件事是,当我使用 运行压力测试时stress,我收到了以下日志:[28189.472043] INFO: 任务 kvm:5058 被阻止超过 120 秒。

我启用了 IPMI,当服务器挂起时它会做出响应。我用它来收集传感器和事件日志。由于它始终有关于电源单元的日志记录,我已经更换了三次电源。IPMI 为我节省了大量停机时间,因为我使用它来重新启动服务器。服务器连接到一个不间断的服务器,该服务器还连接了另外 3 台服务器。其他服务器都没有问题。

 bc3 | 01/22/2015 | 22:47:41 | Power Unit Pwr Unit Status | Power off/down | Asserted
 bc4 | 01/22/2015 | 22:47:41 | Power Unit Pwr Unit Status | Failure detected | Asserted
 bc5 | 01/22/2015 | 22:47:46 | Power Unit Pwr Unit Status | Power off/down | Deasserted
 bc6 | 01/22/2015 | 22:47:46 | Power Unit Pwr Unit Status | Failure detected | Deasserted
 bc7 | 01/22/2015 | 22:47:49 | Fan System Fan 3 | Lower Non-critical going low  |     Deasserted | Reading 0
 bc8 | 01/22/2015 | 22:47:49 | Fan System Fan 3 | Lower Critical going low  | Deasserted | Reading 0
 bc9 | 01/22/2015 | 22:47:56 | Fan System Fan 3 | Lower Non-critical going low  | Asserted | Reading 0 < Threshold 374 RPM
 bca | 01/22/2015 | 22:47:56 | Fan System Fan 3 | Lower Critical going low  | Asserted | Reading 0 < Threshold 330 RPM
 bcb | 01/22/2015 | 22:48:01 | System Event BIOS Evt Sensor | Timestamp Clock Sync |   Asserted
 bcc | 01/22/2015 | 22:48:02 | System Event BIOS Evt Sensor | Timestamp Clock Sync | Asserted
 bcd | 01/22/2015 | 22:48:43 | System Event BIOS Evt Sensor | OEM System boot event | Asserted
 bce | 01/22/2015 | 22:48:51 | Critical Interrupt PCIe Cor Sensor |  | Asserted

有时服务器会重新启动而不是挂起。但大多数时候它会挂起,我必须亲自重新启动它。

啊,还有一个信息,服务器有时会在启动过程中挂起,甚至在加载 GRUB 之前。

您对正在发生的事情有什么建议吗?或者我可以做些什么来进一步解决这个问题?

答案1

只是想就此问题提供反馈。我也更换了 SATA 电缆,但问题仍然存在。运行内存测试超过 24 小时后,错误计数器开始增加。

现在我想找出哪个内存模块坏了。

--

坏的内存模块已经更换,现在让我们看看问题是否解决了。我希望如此,但我不太确定,因为我已经更换了内存模块。

--

昨天下午服务器突然重启了。没有断电,也没有其他设备重启。我们还在努力找出问题所在。

相关内容