为了找出服务器宕机 20 分钟的根本原因,我查看了该时间段的系统日志,发现了以下内容:
Jan 3 07:50:01 tools CRON[17085]: (munin) CMD (if [ -x /usr/bin/munin-cron ]; then /usr/bin/munin-cron; fi)
Jan 3 07:55:01 tools CRON[17773]: (munin) CMD (if [ -x /usr/bin/munin-cron ]; then /usr/bin/munin-cron; fi)
Jan 3 07:55:01 tools CRON[17774]: (root) CMD (if [ -x /etc/munin/plugins/apt_all ]; then /etc/munin/plugins/apt_all update 7200 12 >/dev/null; elif [ -x /etc/munin/plugins/apt ]; then /etc/munin/plugins/apt update 7200 12 >/dev/null; fi)
^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@Jan 3 08:19:44 tools kernel: imklog 4.2.0, log source = /proc/kmsg started.
Jan 3 08:19:44 tools rsyslogd: [origin software="rsyslogd" swVersion="4.2.0" x-pid="470" x-info="http://www.rsyslog.com"] (re)start
EC2 显示崩溃期间(中间,UTC 时间 13:00 之前)的 CPU 利用率。
因此,在那段时间内什么都看不到。我们的其他 EC2 实例都没有崩溃,我找不到任何证据表明这是应用程序错误。事实上,这发生在我们的工具服务器(apache、mongodb 和 redis)上。Monit 也在运行,但崩溃时没有可疑日志。
什么原因可能导致这次崩溃?^@
系统日志中的 's 代表什么意思?
答案1
答案来自 AWS 论坛: https://forums.aws.amazon.com/message.jspa?messageID=308434
芦苇,
底层硬件存在问题,导致底层系统崩溃。syslog 行的产物可能只是表示系统在写入过程中崩溃,或者这些行可能来自上一行上运行的 cron 进程。
弥敦道