我如何知道我的专用服务器冻结或崩溃的原因?(类似 Unix)

我如何知道我的专用服务器冻结或崩溃的原因?(类似 Unix)

最近,我的专用服务器在周日冻结了大约 50 分钟。它没有响应 ping 或任何命令。最后,托管公司对其进行了硬重启,此后一切正常。

我已经研究日志两天了,除了我的日志在 10:55 到 11:40 之间停止外,我没有发现任何异常。

所以,也许我没有在正确的地方寻找,或者我没有记录一些关键信息。


这让我想到了我的问题,我如何知道我的专用服务器冻结或崩溃的原因?我应该记录什么,我应该在哪里查看,我应该运行一些测试吗?


我的服务器运行的是 Debian (Jessie) 8.3,但我省略了此信息,因为我更喜欢“通用”答案,它对任何类 Unix 操作系统都很有用。
此外,这个问题可能有点太宽泛了,我知道这一点,如果是的话,我深表歉意。

答案1

服务器停止响应,重置后日志中没有合理的解释,这种情况很常见。调查这种情况的标准方法是进行某种带外控制这个服务器,通常这将是某种ipkvm,通常由 IPMI/BMC 板提供。HP 称之为国际劳工组织戴尔称其为德州仪器,IBM 称之为RSA,其他供应商简单地称之为智能平台管理接口。它通常由一个单独的控制器处理,该控制器可以有一个专用的网络端口(也可以在共享模式,通过与操作系统连接的同一网络接口,但最好有一个专用的网络接口)。另一个选项是连接外部 ipkvm,它将为您提供相同的方式带外连接性。

因此,当服务器停止响应时,您可以使用此类通信,登录服务器并尝试了解问题所在。如果服务器仍然无响应,即使通过本地控制台进行远程访问,也可以尝试其他更复杂的技术。第一种方法是使用 NMI(非屏蔽中断调用,通常可以从 IPMI/BMC 发出)进入内核调试器,甚至强制致命陷阱并在重新启动后检查转储的内核核心。后一种技术实际上是特定于操作系统的,仅在怀疑遇到内核错误时使用。由于您使用的是 Linux,我怀疑您永远都不需要它,但值得一提。

相关内容