nagios 服务检查

nagios 服务检查

我是 nagios 新手,我们有一个小问题需要寻求帮助。我们监控的许多机器在运行一些非常耗 CPU 的任务时可能会暂时无响应。当这些主机忙于报告“ping 超时”或“僵尸进程”等内容甚至交换空间警告时,这会导致 nagios 发送警告和警报,但实际上没有问题。

有没有办法配置 nagios 不发送此类警报,而是在一段时间内检查 x 次,并且仅在相关服务器尚未恢复时在该时间结束时发送警报?

查看commands.cfg文件,我看到如下条目:

define command{
        command_name    check_local_swap
        command_line    $USER1$/check_swap -w $ARG1$ -c $ARG2$
        }

我该如何修改这个例子来实现上面我想要的效果。

谢谢

答案1

首先,您可以通过调整指令来更改相关检查的参数check_command

例如:

    check_command           check_nrpe!check_zombie_procs!1 5

如果你想容忍更多的僵尸进程,只需增加数量。

一旦您根据自己的喜好调整了阈值,您可以通过增加来进一步修剪虚假警报max_check_attempts

例如:

max_check_attempts      3

这允许主机/服务进入“软”非 OK 状态,等待进一步的两次检查;第三次检查时,您将收到警报。

也可以看看:Nagios 状态类型Nagios 对象定义

答案2

我认为您可能正在谈论“拍打”问题。

查看此页面了解处理方法Nagios 下的扑扇

相关内容