Nagios“严重 - 10 秒后套接字超时”服务和主机检查问题

Nagios“严重 - 10 秒后套接字超时”服务和主机检查问题

我们办公室使用的 Nagios 系统最近出现了一点问题。

我真正想知道的是解决这个问题的最佳方案,因为我读了一些资料,似乎有很多不同的方法可以解决这个问题。

基本上,在一天中的随机时间点以及在随机主机 / 服务上,我们都会收到一个严重警告,标记某些东西没有按照应有的方式运行,当我们进行调查时,十有八九我们都会得到一条错误消息。

"SERVICE ALERT: SERVERNAME ;NSClient++ Version;CRITICAL;SOFT;1;CRITICAL - Socket timeout after 10 seconds"

表示服务或主机已超时,我该在哪里设置超时才能停止?我读到一些插件超时时间低至 10 秒……

谢谢克里斯

答案1

一般来说,对于任何服务,如果服务器太忙而无法响应、网络出现故障等,您有时都会收到这些警报。您可以尝试查看收到这些警报时服务器是否处于负载之下。

我认为您要查看的主要内容是max_check_attempts与服务或服务模板关联的指令,这样您就不会收到警报,直到检查连续几次进入失败/严重状态。您还可以使用check_nt开关调整插件的超时值-t

-t, --timeout=INTEGER
   Seconds before connection attempt times out (default: 10)

答案2

我还建议检查被监控主机上的 NSClient。

相关内容