如何调查服务器中断?

如何调查服务器中断?

我知道,这个问题有点笼统,但我真的无法更具体,因为我根本不知道发生了什么:

现在已经发生过两次(一次在我们的实时服务器上,一次在我们的测试服务器上),响应变得完全没有响应。我无法在任何浏览器中访问我们的网站,也无法通过 SSH 连接,我得到的只是Connection closed by remote host。我必须使用 hetzner 的 web-tool 进行硬重置以管理服务器。这是我让服务器再次可访问的唯一方法。软重置(hetzner 说相当于发送 ctrl+alt+del)根本没有效果。进行硬重置后,我可以再次通过 SSH 登录,网站恢复正常。

有问题的服务器是EX41-固态硬盘来自 hetzner,使用 Ubuntu 14.04.5。我们的网站使用 LAMP 堆栈运行,即 Apache、MySQL 和 PHP。

问题是,我真的不知道从哪里开始寻找这个问题的根源。我是一名 Web 开发人员,以前做过一些服务器管理工​​作,但只是设置机器、强化它们、设置 Puppet。从来没有真正调查过服务器中断之类的事情。

我确实发现了一个问题,就是 中有 3 小时的间隔/var/log/syslog。我们的 cron 中有一些输出,然后是一大堆“^@^@^”,然后是硬重置或随后的启动过程导致的输出。

知道我还可以去哪里找吗?或者我可以做些什么,让未来的调查更容易?我应该安装/设置一些监控工具吗?

不管怎样,谢谢你!

答案1

你应该尝试最后一个命令

# last

相关内容