我使用 VPN 监控大约 100 个远程主机检查snmp进程几个月来,这种方法一直很有效。周末我开始看到错误:警报信号(Nagios 超时)几乎每个主机/进程都会出现错误。我可以在命令行上使用该命令并获得成功响应,因此我不清楚为什么它在正常使用下会超时。
今天早上我尝试将插件上的“超时”参数增加到 20 秒。大约一个小时后,这个方法似乎有效,但几分钟后,失败率又回到了之前的水平。
VPN 服务器似乎没有承受任何异常负载。nagios 机器也没有。
还有什么建议可以在哪里寻找该来源吗?
Nagios 机器:CentOS 6.5
Nagios 版本:3.5.1
插件版本:1.10
编辑:当发生“大规模超时”时,这一切都发生在几秒钟内。每个主机在报告上显示相同的时间(+- 5 秒)。这可能是由于 nagios 强制重新检查服务重新启动后的“孤立进程”。尚不确定。当 40-50 次超时同时出现在日志中时,这似乎是不祥之兆。
答案1
我遇到了同样的问题,但在编辑脚本后检查snmp进程我的超时时间从 15 到 40 有效。我的$TIMEOUT = 40;