我是一名新系统管理员。监控系统运行良好,但几天前 Nagios 监控系统警告我存在问题。状态为危急,平均负载较高。
这是 nagios 不断发送给我的内容:
***** Nagios *****
Notification Type: PROBLEM
Service: Current Load
Host: localhost
Address: 127.0.0.1
State: CRITICAL Date/Time: Tue Nov 17 08:57:15 CET 2015
Additional Info:
CRITICAL - load average: 6.25, 8.22, 8.28
平均负载不断增长。
我不擅长 Linux,所以我不知道如何解决这个问题。
答案1
如果它是最近才开始的,并且您没有在服务器上增加任何额外负载(没有配置更改或部署任何新软件,或者您不确定),则值得调查您的服务器以查看导致负载增加的原因。为此,您需要能够登录服务器并拥有 root 访问权限。您可以从类似工具开始top
并进一步调查。请参阅此处获取一些提示:CPU 负载过高。如何调查?。
如果您无法发现任何异常并可以得出结论,这是服务器的正常行为,那么您可以相应地配置 Nagios 插件的警告和临界值。方法如下: check_load 应使用哪些警告值和临界值?