今天,我们 OVH 的一个 CentOS 6.5 KVM 节点在正常运行 46 天后崩溃了,我们无法找出原因,我们之前在另一台服务器上的 OVH 内核上也遇到过这个问题,但这台服务器运行的是正常内核:
Linux 2.6.32-431.11.2.el6.x86_64 #1 SMP Tue Mar 25 19:59:55 UTC 2014 x86_64 x86_64 x86_64 GNU/Linux
我们的监测工具显示如下:
尽管没有任何虚拟机执行任何奇怪的操作,但看起来负载仍然很高。
/var/log/messages/
我首先查看了该文件,发现在停机期间没有显示任何内容:
Jun 16 11:15:11 server dhcpd: DHCPINFORM from 5.XXX.XX.104 via viifbr0
Jun 16 11:15:11 server dhcpd: DHCPACK to 5.XXX.XX.104 (02:XX:00:XX:XX:d3) via viifbr0
-----Downtime no logs-----
Jun 16 12:24:01 server kernel: imklog 5.8.10, log source = /proc/kmsg started.
Jun 16 12:24:01 server rsyslogd: [origin software="rsyslogd" swVersion="5.8.10" x-pid="1493" x-info="http://www.rsyslog.com"] start
Jun 16 12:24:01 server kernel: Initializing cgroup subsys cpuset
Jun 16 12:24:01 server kernel: Initializing cgroup subsys cpu
我dmesg
也检查了,虽然我不确定输出的含义,因为大部分看起来都很正常:
http://pastebin.com/raw.php?i=YyRCYZdn
我不确定这可能是什么,还有其他日志我可以检查吗?
答案1
当您调试虚拟机崩溃时,您需要托管服务提供商的协作。高负载似乎是在崩溃之后出现的。这让我认为物理服务器上运行的 Linux 崩溃了或出现了问题(例如运行速度非常慢、存储问题……)。