昨晚,我们的一台 Debian 7 服务器意外停止工作。
我以前从未见过这样的“崩溃”,所以我希望这里有人可以告诉我这里发生了什么。
系统信息:
- Debian 7.11 @ 3.2.82-1 x86_64
- 该服务器是 Supermicro 服务器,配备 Intel Xeon CPU E5-2630 v4 @ 2.20GHz 和 128 GB 内存。
- 磁盘控制器是 AVAGO MegaRAID SAS 9361-4i,带有 4 个 SAMSUNG MZ7KM960HAHP 磁盘(RAID10)。
现在来谈谈问题:服务器一度变得无法访问。在 ssh 和 ping 没有响应后,我在 10 分钟后通过 IPMI 迂回重启了服务器。
我在日志中发现的都是这样的:
Oct 30 03:51:53 box postfix/smtp[24856]: 6FE632E015F1: to=<[email protected]>, relay=mailload.mailmOct 30 04:05:03 box kernel: imklog 5.8.11, log source = /proc/kmsg started.
Oct 30 04:05:03 box rsyslogd: [origin software="rsyslogd" swVersion="5.8.11" x-pid="2804" x-info="http://www.rsyslog.com"] start
如您所见,服务器在该行中间停止写入磁盘:...mailmOct 30...
SMART 和 RAID 控制器状态均正常。