问题:

问题:

我们的一台远程 Linux 服务器时不时会崩溃:它们在网络上不可用(有时响应 ping,但不响应 ssh/http)并且它们不会响应鼠标或键盘输入。

这些服务器是运行 Ubuntu 20.04.3 LTS 的高质量消费级硬件。

由于这些崩溃很少发生,因此我收集了所有常见的服务器可能崩溃的原因,因此我可以设置监控(munin)以确保在发生崩溃时我拥有所需的所有信息并实施对策(例如定期重启?)。

问题:

Linux 计算机无响应的原因是什么,我可以跟踪哪些信息来诊断这些问题,我该怎么做才能解决这些问题?

我相信,如果每个失败原因都有一个答案,那么这个问题和答案将是最有用的,当我找到这样的原因时,我会自己发布答案。

答案1

原因:RAM/CPU 使用率过高

追踪:RAM 和交换使用情况、资源密集型进程及其日志

使固定:增加 RAM、调整服务、调试资源密集型进程,以查看在哪些条件下其资源消耗会激增

答案2

原因:交换过多

可能会导致系统冻结(尽管这通常是暂时的)。

追踪:RAM 和交换使用情况

使固定:增加 RAM,调整服务,(可能)增加交换

这里

答案3

原因:硬盘写入失败

追踪: 聪明的诊断

使固定:更换故障磁盘

答案4

从先前的评论中您可以得到很好的指点。

您可能还想在周末停止您的服务器(如果可能的话)并使用 Memtest86 测试内存。

您将 CD 或 ISO 刻录到 USB 密钥上,然后用它启动机器。我知道您有物理访问权限。

相关内容