我们的一台远程 Linux 服务器时不时会崩溃:它们在网络上不可用(有时响应 ping,但不响应 ssh/http)并且它们不会响应鼠标或键盘输入。
这些服务器是运行 Ubuntu 20.04.3 LTS 的高质量消费级硬件。
由于这些崩溃很少发生,因此我收集了所有常见的服务器可能崩溃的原因,因此我可以设置监控(munin)以确保在发生崩溃时我拥有所需的所有信息并实施对策(例如定期重启?)。
问题:
Linux 计算机无响应的原因是什么,我可以跟踪哪些信息来诊断这些问题,我该怎么做才能解决这些问题?
我相信,如果每个失败原因都有一个答案,那么这个问题和答案将是最有用的,当我找到这样的原因时,我会自己发布答案。
答案1
原因:RAM/CPU 使用率过高
追踪:RAM 和交换使用情况、资源密集型进程及其日志
使固定:增加 RAM、调整服务、调试资源密集型进程,以查看在哪些条件下其资源消耗会激增
答案2
答案3
答案4
从先前的评论中您可以得到很好的指点。
您可能还想在周末停止您的服务器(如果可能的话)并使用 Memtest86 测试内存。
您将 CD 或 ISO 刻录到 USB 密钥上,然后用它启动机器。我知道您有物理访问权限。