Cent OS 6.4 VPS 意外宕机

2024-5-29 • tag-icon

我在 Digital Ocean 有一个云 VPS，最近它自己宕机了，我使用 pingdom alert 时收到了通知，所以我再次启动了 VPS 以找出原因。如何找出导致系统意外停机的原因？

系统信息：操作系统：Cents Os 6.4 x64

我做到了

[root@user1 myserver]# cat /var/log/messages 
Sep  8 03:12:02 user1 rsyslogd: [origin software="rsyslogd" swVersion="5.8.10" x-pid="970" x-info="http://www.rsyslog.com"] rsyslogd was HUPed
Sep  9 23:33:52 user1 init: tty (/dev/tty1) main process (1295) killed by TERM signal
Sep  9 23:33:52 user1 init: tty (/dev/tty2) main process (1297) killed by TERM signal
Sep  9 23:33:52 user1 init: tty (/dev/tty3) main process (1301) killed by TERM signal
Sep  9 23:33:52 user1 init: tty (/dev/tty4) main process (1303) killed by TERM signal
Sep  9 23:33:52 user1 init: tty (/dev/tty5) main process (1305) killed by TERM signal
Sep  9 23:33:52 user1 init: tty (/dev/tty6) main process (1307) killed by TERM signal
Sep  9 23:34:00 user1 acpid: exiting
Sep  9 23:34:00 user1 auditd[954]: The audit daemon is exiting.
Sep  9 23:34:00 user1 kernel: type=1305 audit(1378769640.655:2459): audit_pid=0 old=954 auid=4294967295 ses=4294967295 res=1
Sep  9 23:34:00 user1 kernel: type=1305 audit(1378769640.757:2460): audit_enabled=0 old=1 auid=4294967295 ses=4294967295 res=1
Sep  9 23:34:00 user1 kernel: Kernel logging (proc) stopped.
Sep  9 23:34:00 user1 rsyslogd: [origin software="rsyslogd" swVersion="5.8.10" x-pid="970" x-info="http://www.rsyslog.com"] exiting on signal 15.
Sep 10 01:15:01 user1 kernel: imklog 5.8.10, log source = /proc/kmsg started.
Sep 10 01:15:01 user1 rsyslogd: [origin software="rsyslogd" swVersion="5.8.10" x-pid="960" x-info="http://www.rsyslog.com"] start
Sep 10 01:15:01 user1 kernel: Initializing cgroup subsys cpuset
Sep 10 01:15:01 user1 kernel: Initializing cgroup subsys cpu
Sep 10 01:15:01 user1 kernel: Linux version 2.6.32-358.6.2.el6.x86_64 ([email protected]) (gcc version 4.4.7 20120313 (Red Hat 4.4.7-3) (GCC) ) #1 SMP Thu May 16 20:59:36 UTC 2013
Sep 10 01:15:01 user1 kernel: Command line: root=LABEL=DOROOT ro
Sep 10 01:15:01 user1 kernel: KERNEL supported cpus:
Sep 10 01:15:01 user1 kernel:  Intel GenuineIntel
Sep 10 01:15:01 user1 kernel:  AMD AuthenticAMD
Sep 10 01:15:01 user1 kernel:  Centaur CentaurHauls
Sep 10 01:15:01 user1 kernel: BIOS-provided physical RAM map:
Sep 10 01:15:01 user1 kernel: BIOS-e820: 0000000000000000 - 000000000009dc00 (usable)
Sep 10 01:15:01 user1 kernel: BIOS-e820: 000000000009dc00 - 00000000000a0000 (reserved)
Sep 10 01:15:01 user1 kernel: BIOS-e820: 00000000000f0000 - 0000000000100000 (reserved)
Sep 10 01:15:01 user1 kernel: BIOS-e820: 0000000000100000 - 000000003fffd000 (usable)
Sep 10 01:15:01 user1 kernel: BIOS-e820: 000000003fffd000 - 0000000040000000 (reserved)
Sep 10 01:15:01 user1 kernel: BIOS-e820: 00000000feffc000 - 00000000ff000000 (reserved)
Sep 10 01:15:01 user1 kernel: BIOS-e820: 00000000fffc0000 - 0000000100000000 (reserved)
Sep 10 01:15:01 user1 kernel: DMI 2.4 present.
Sep 10 01:15:01 user1 kernel: SMBIOS version 2.4 @ 0xFDAD0

更多 304 行

我认为内存足够了

[root@]# free -m
             total       used       free     shared    buffers     cached
Mem:           996        213        783          0          9         90
-/+ buffers/cache:        113        883
Swap:         2047          0       2047

HDD 空间也很好

[root@]# df -h
Filesystem            Size  Used Avail Use% Mounted on
/dev/vda               30G   27G  2.0G  94% /
none                  499M     0  499M   0% /dev/shm

更新：我联系了 vps 提供商并询问他们原因，并得到了回复

您的票已得到回复：

看起来“关机”是由于你的服务器内核崩溃造成的，如果你禁用

/dev/shm

从 fstab 它应该可以帮助你

收到更多回复

您的票已得到回复：

更明确地说，您的机器可能因多种原因而关机，包括磁盘损坏。/etc/fstab 中的 /dev/shm 项是一个动态大小的基于 RAM 的文件系统，挂载到我们的 CentOS droplet 上的 /tmp。如果此分区的大小超过其最大大小（500MB），则会导致 droplet 系统故障。例如，这可能是由大型构建作业引起的。您可以增加 fstab 中 shm 的大小（不大于最大 RAM），也可以卸载它。

我还建议通过关闭 droplet 并从 droplet 控制面板加载我们的自定义恢复内核 DO-recovery-fsck-static，在您的根文件系统 (/dev/vda) 上运行 fsck。然后您可以启动它并运行 fsck -y /dev/vda。恢复的文件将位于 /lost+found 中。

相关内容