我发现 Linux 服务器速度慢到完全无响应(LA 150+ 等)的情况很常见,稍后使用 sar 或 munin 或其他程序查看时,会发现进程数量突然快速增加。此时我通常需要重新启动机器,但我总是想知道问题最初是什么原因造成的。
我假设有一个恶意进程进入某种循环,创建大量新进程,然后消耗内存等并导致锁定。但是,事后我如何确定哪个是有问题的应用程序/进程?
谢谢
答案1
安装atop
并配置它以每 60 秒保存一次快照。然后,当您的系统再次出现故障时,您可以重新启动并使用atop -r /var/log/atop.log
它回到过去并查看哪里出了问题。