我们办公室使用的 Nagios 系统最近出现了一点问题。
我真正想知道的是解决这个问题的最佳方案,因为我读了一些资料,似乎有很多不同的方法可以解决这个问题。
基本上,在一天中的随机时间点以及在随机主机 / 服务上,我们都会收到一个严重警告,标记某些东西没有按照应有的方式运行,当我们进行调查时,十有八九我们都会得到一条错误消息。
"SERVICE ALERT: SERVERNAME ;NSClient++ Version;CRITICAL;SOFT;1;CRITICAL - Socket timeout after 10 seconds"
表示服务或主机已超时,我该在哪里设置超时才能停止?我读到一些插件超时时间低至 10 秒……
谢谢克里斯
答案1
一般来说,对于任何服务,如果服务器太忙而无法响应、网络出现故障等,您有时都会收到这些警报。您可以尝试查看收到这些警报时服务器是否处于负载之下。
我认为您要查看的主要内容是max_check_attempts
与服务或服务模板关联的指令,这样您就不会收到警报,直到检查连续几次进入失败/严重状态。您还可以使用check_nt
开关调整插件的超时值-t
:
-t, --timeout=INTEGER
Seconds before connection attempt times out (default: 10)
答案2
我还建议检查被监控主机上的 NSClient。