导致 Nagios 状态不稳定的原因未知?

导致 Nagios 状态不稳定的原因未知?

我们通过 OpsView 运行一些 Nagios 服务检查,其中一台主机收到了奇怪的 SSH 响应:

“未知:服务结果已过时”

这种情况经常发生,但系统重试第二次和第三次后似乎就消失了。上周对有问题的服务器进行修补和重新启动后,这种情况就开始了。系统本身响应了我测试过的盒子的 SSH(不包括我无权访问的监控系统)。

/var/log/secure 里全是这样的行:

sshd[15628]: Did not receive identification string from xxx.xxx.226.20

时间戳每五分钟可靠一次,这显然是监控脚本在收到登录提示后断开连接。

有人知道是什么原因造成的,或者如何修复它吗?看到这个消息在状态页面上弹出和消失真是令人沮丧。

答案1

当有人连接然后断开连接而没有尝试 SSH 握手(这是 Nagios SSH 检查所做的工作)时,您将从 sshd 获得“未收到识别字符串”的信息 - 所以没有什么可担心的。

现在,至于为什么您会得到“过时的结果”,看起来您使用的是被动检查,而这并非我进行 SSH 检查的首选。但是,OpsView 集成可能要求这样做...无论如何,过早过时的检查结果意味着您发送被动检查结果的频率不够频繁,不符合 Nagios 的喜好,因此您需要告诉提供检查结果的程序更频繁地发送,或者告诉 Nagios 不要太挑剔获取检查结果的频率(将 freshness_threshold 设置为大于该值的值 - 或者设置为大于 300(秒;即 5 分钟)的值(如果尚未定义)。

相关内容