Linux 服务器崩溃后要检查什么？

Question

您需要提供更多有关服务器配置的信息，并发布这些日志。您如何知道平均负载变高了？

“故障前平均负载飙升至 100 以上”的症状可能有很多原因，但常见的原因如下。

首先，什么是平均负载？

平均负载指示当前有多少进程处于“等待”状态。非常高的负载平均表示资源耗尽，而这种资源耗尽的常见原因是等待 I/O 操作完成的时间很长（或无限长）。

什么原因造成这种情况？

I/O 等待可能是由于 NFS 安装失败或硬盘驱动器故障。您可能已成为攻击的受害者。
攻击方式如下慢蜂往往会耗尽文件句柄池，并可能挂起服务器上的 I/O 操作。
还要注意 fork 炸弹。如果您遭遇了 fork 炸弹，并且内存耗尽，您可能会看到有关“OOM Killer”的痕迹，这是一个内核工作程序，当其他所有程序都失败时，它会牺牲进程来为系统释放内存。在某些设置中，该 OOM Killer 可以使系统重新启动。

去哪儿看？

这实际上取决于您的系统配置和环境。你在问题中没有提供足够的细节来回答这个问题。不过这里有一些想法：

Answer 1