我是 nagios 新手,我们有一个小问题需要寻求帮助。我们监控的许多机器在运行一些非常耗 CPU 的任务时可能会暂时无响应。当这些主机忙于报告“ping 超时”或“僵尸进程”等内容甚至交换空间警告时,这会导致 nagios 发送警告和警报,但实际上没有问题。
有没有办法配置 nagios 不发送此类警报,而是在一段时间内检查 x 次,并且仅在相关服务器尚未恢复时在该时间结束时发送警报?
查看commands.cfg文件,我看到如下条目:
define command{
command_name check_local_swap
command_line $USER1$/check_swap -w $ARG1$ -c $ARG2$
}
我该如何修改这个例子来实现上面我想要的效果。
谢谢
答案1
首先,您可以通过调整指令来更改相关检查的参数check_command
:
例如:
check_command check_nrpe!check_zombie_procs!1 5
如果你想容忍更多的僵尸进程,只需增加数量。
一旦您根据自己的喜好调整了阈值,您可以通过增加来进一步修剪虚假警报max_check_attempts
。
例如:
max_check_attempts 3
这允许主机/服务进入“软”非 OK 状态,等待进一步的两次检查;第三次检查时,您将收到警报。
也可以看看:Nagios 状态类型,Nagios 对象定义
答案2
我认为您可能正在谈论“拍打”问题。
查看此页面了解处理方法Nagios 下的扑扇: