我有一个 Nagios 服务,它正确地注意到了一个问题。我正在那台机器上运行一个命令来修复这个问题。但是它需要几个小时才能运行。在此之前,Nagios 仍然(正确地)检测到它是个问题。我可以“确认”这个问题,并且不会再收到通知,但如果我的清理命令有问题,除非我记得重新检查,否则我不会知道。
有没有办法在一定时间内“确认”nagios 问题?如果过了这段时间,问题仍然存在,是否能正常发送 nagios 警报?有点像“在接下来的 X 分钟/小时/天忽略此问题”?nagios 问题有“暂停”按钮吗?
答案1
是的,这叫停机时间. 引用文档中的一段话:
当主机或服务处于计划停机期间时,Nagios Core 将不允许为主机或服务发送正常通知。但是,将为主机或服务发送“DOWNTIMESTART”通知,这将通知所有管理员他们将不会收到即将出现的问题警报。
当计划停机时间结束时,Nagios Core 将允许再次向主机或服务发送正常通知。将发送“DOWNTIMEEND”通知,通知管理员计划停机时间已结束,他们将再次开始接收正常警报。
停机有两种情况:
- 固定的停机时间按您指定的准确时间开始和结束
- 灵活的停机时间从服务进入故障状态时开始(但在指定的开始时间之后),并持续固定的期间(但不得超过指定的结束时间)
在这种情况下,您需要一个固定的停机时间,开始时间是现在,结束时间是您的命令的预期完成时间。