我目前遇到一个奇怪的问题,我的电脑WIND BOX DE500-5123L Atom D510 320GB 2048MB DVD SM HD4330
有时会崩溃,我不知道从哪里开始。
Linux 内核2.6.26-2-vserver-686 #1 SMP Thu May 13 01:30:39 UTC 2010 i686 GNU/Linux
(只是 Debian pristine)。
内核日志没有给我任何可疑的信息:
02:30:01 CRON[15102]: pam_unix(cron:session): session opened for user root by (uid=0)
02:30:01 /USR/SBIN/CRON[15104]: (root) CMD (if [ -x /etc/munin/plugins/apt_all ]; then /etc/munin/plugins/apt_all update 7200 12 >/dev/null; elif [ -x /etc/munin/plugins/apt ]; then /etc/munin/plugins/apt update 7200 12 >/dev/null; fi)
02:30:01 CRON[15102]: pam_unix(cron:session): session closed for user root
02:31:01 kernel: [ 1974.992964] vxW: [<BB>ck-collect-sess<AB>,15715:#400|400|400] did lookup hidden f70b449c[#0,5] <BB>/dev/pts<AB>.
02:31:32 kernel: [ 2028.565867] vxW: [<BB>console-kit-dae<AB>,6459:#400|400|400] did lookup hidden f70b449c[#0,5] <BB>/dev/pts<AB>.
02:34:27 sshd[6137]: syslogin_perform_logout: logout() returned an error
02:34:27 sshd[6137]: pam_unix(sshd:session): session closed for user user
02:35:01 CRON[15865]: pam_unix(cron:session): session opened for user root by (uid=0)
02:35:01 /USR/SBIN/CRON[15866]: (root) CMD (if [ -x /etc/munin/plugins/apt_all ]; then /etc/munin/plugins/apt_all update 7200 12 >/dev/null; elif [ -x /etc/munin/plugins/apt ]; then /etc/munin/plugins/apt update 7200 12 >/dev/null; fi)
02:35:01 CRON[15865]: pam_unix(cron:session): session closed for user root
18:31:34 kernel: imklog 3.18.6, log source = /proc/kmsg started.
突然就死机了。我回家的时候,机器真的关机了。
我已经安装了 munin 并检查了图表,但并没有什么东西直接跳到我身上。我只记得我开始了一项编译 Ruby 的工作,这在机器上需要相当长的时间(这就是负载如此之高的原因)。
Munin传感器:
这是负载:
磁盘使用情况良好,所有地方都有足够的空间。我运行了大约 6 台带有 linux-vserver 的虚拟机,它们正在执行 DNS(内部)、MTA/IMAP、病毒扫描、一些 HTTP 等操作。除了 SMTP 之外,没有任何东西可以公开访问(Linux 机器位于 Netgear 路由器后面,并且选定的端口也被转发)。
我很高兴提供更多信息并将更新问题。
答案1
看来罪魁祸首确实是温度:我打开系统,清除所有灰尘(有很多灰尘)并重新启动:可以看到温度立即下降:
现在我怀疑温度有问题,但实际上我认为没问题。我想我在http://www.intel.com/Assets/PDF/prodbrief/322518.pdf上面写着:
Environment:
Operating Temperature
• 0°C to +50°C
Storage Temperature
• -20°C to +70°C
工作温度已经高于这个温度,存储温度则不会。但我不知道它们之间有什么区别。
我现在假设系统检测到过热,并立即关闭计算机(没有给操作系统正常关闭的机会)。我在 BIOS 中没有找到任何指示这一点的信息,也许关机也是强制。
系统现在运行稳定,我需要留意系统周围的温度和灰尘。