GCE 实例随机重启

GCE 实例随机重启

自从我转到 GCE 已经有一个月了,我注意到我的所有进程或容器时不时都会关闭,卷会被卸载,并且系统最近会注册重新启动。

有谁遇到过 Google Cloud Platform 计算实例意外重启的问题吗?

上次重启时间为 8 月 16 日 22:25:27

重启时周围的日志没有任何指示,一切正常,然后机器再次开始启动

Aug 16 20:22:36 dva kernel: [1612872.963240] init: google-clock-sync-manager main process (13004) terminated with status 1
Aug 16 20:22:36 dva kernel: [1612872.963258] init: google-clock-sync-manager main process ended, respawning
Aug 16 20:22:36 dva google-clock-sync: INFO Starting GCE clock sync
Aug 16 21:17:01 dva CRON[15754]: (root) CMD (   cd / && run-parts --report /etc/cron.hourly)
Aug 16 21:22:36 dva kernel: [1616473.015336] init: google-clock-sync-manager main process (14413) terminated with status 1
Aug 16 21:22:36 dva kernel: [1616473.015345] init: google-clock-sync-manager main process ended, respawning
Aug 16 21:22:37 dva google-clock-sync: INFO Starting GCE clock sync
Aug 16 22:17:01 dva CRON[17329]: (root) CMD (   cd / && run-parts --report /etc/cron.hourly)
Aug 16 22:25:27 dva rsyslogd: [origin software="rsyslogd" swVersion="7.4.4" x-pid="895" x-info="http://www.rsyslog.com"] start
Aug 16 22:25:27 dva rsyslogd-2307: warning: ~ action is deprecated, consider using the 'stop' statement instead [try http://www.rsyslog.com/e/2307 ]
Aug 16 22:25:27 dva rsyslogd: rsyslogd's groupid changed to 104
Aug 16 22:25:27 dva rsyslogd: rsyslogd's userid changed to 101
Aug 16 22:25:27 dva kernel: [    0.000000] Initializing cgroup subsys cpuset
Aug 16 22:25:27 dva kernel: [    0.000000] Initializing cgroup subsys cpu
Aug 16 22:25:27 dva kernel: [    0.000000] Initializing cgroup subsys cpuacct
Aug 16 22:25:27 dva kernel: [    0.000000] Linux version 3.19.0-66-generic (buildd@lgw01-40) (gcc version 4.8.4 (Ubuntu 4.8.4-2ubuntu1~14.04.3) ) #74~14.04.1-Ubuntu SMP Tue Jul 19 19:56:11 UTC 2016 (Ub\
untu 3.19.0-66.74~14.04.1-generic 3.19.8-ckt22)
Aug 16 22:25:27 dva kernel: [    0.000000] Command line: BOOT_IMAGE=/boot/vmlinuz-3.19.0-66-generic root=UUID=5e5ef9d5-0969-4eaa-82ad-0234a67a2e9f ro console=ttyS0
Aug 16 22:25:27 dva kernel: [    0.000000] KERNEL supported cpus:
Aug 16 22:25:27 dva kernel: [    0.000000]   Intel GenuineIntel
Aug 16 22:25:27 dva kernel: [    0.000000]   AMD AuthenticAMD
Aug 16 22:25:27 dva kernel: [    0.000000]   Centaur CentaurHauls
Aug 16 22:25:27 dva kernel: [    0.000000] e820: BIOS-provided physical RAM map:
Aug 16 22:25:27 dva kernel: [    0.000000] BIOS-e820: [mem 0x0000000000000000-0x000000000009fbff] usable
Aug 16 22:25:27 dva kernel: [    0.000000] BIOS-e820: [mem 0x000000000009fc00-0x000000000009ffff] reserved

答案1

有些 pod 可能会消耗大量内存,因此设置内存限制可能有助于解决此问题,如帮助中心中所述文章或者有时增加实例资源也会有所帮助。另一个建议是监控节点健康状况,这可能会对未来的问题有所帮助”调试。“kubectl describe node NODE-NAME”可以让你了解节点的状态以及可能导致其重新启动的原因。有时这可能是由 Google Cloud Platform 上的一些维护事件引起的,这些事件可以在操作日志中看到。

相关内容