- 神拳 2.0.3
- NRPE 2.15
我们正在使用国家科学委员会执行被动检查。
define service {
name salt-service
register 0
active_checks_enabled 0
passive_checks_enabled 1
check_freshness 1
freshness_threshold 600
max_check_attempts 2
check_interval 5
retry_interval 3
}
define service {
use salt-service
service_description syncthing_procs-2
host_name x
check_command check_nrpe!syncthing_procs!10
display_name Syncthing Procs
}
虽然freshness_threshold
是 10 分钟,但存在被动检查过期的情况:
10 月 6 日 09:52:36 x shinken:[2015 年 10 月 6 日星期二 09:52:35] 警告:主机“x”上的服务“syncthing_procs-2”的结果已过时 0 天 0 小时 10 分 16 秒(阈值=16714 天 9 小时 42 分 35 秒)。我强制立即检查该服务。
哦,threshold=16714d 9h 42m 35s
我在配置文件中将其设置为 10 分钟,这从何而来?当然,Shinken VM 和主机“x”上的系统时间是相同的。
有很多服务都像这样停滞了。如您所见,在被动检查停滞后,我们用来check_nrpe
执行主动检查。问题是现在我们有太多 nrpe 进程似乎挂起了:
nagios 31404 1 0 Sep18 ? 00:00:00 /usr/sbin/nrpe -c /etc/nagios/nrpe.cfg -d
nagios 31727 1 0 Oct01 ? 00:00:00 /usr/sbin/nrpe -c /etc/nagios/nrpe.cfg -d
nagios 31732 1 0 Oct01 ? 00:00:00 /usr/sbin/nrpe -c /etc/nagios/nrpe.cfg -d
nagios 32148 1 0 Sep30 ? 00:00:00 /usr/sbin/nrpe -c /etc/nagios/nrpe.cfg -d
nagios 32157 1 0 Sep30 ? 00:00:00 /usr/sbin/nrpe -c /etc/nagios/nrpe.cfg -d
我只粘贴了几个。实际上,有 200 多个流程。
所以,除了错误的阈值之外,我还有一个问题:为什么之后会有这么多 nrpe 进程?我知道执行主动检查时会分叉一个新进程。但检查完成后它应该会消失,对吗?
啊,我知道第一个问题的答案。
哦,我在配置文件中将其设置为 10 分钟,那么阈值=16714d 9h 42m 35s 是从哪里来的呢?
Shinken 和 Nagios 之间似乎略有不同。它是以天/小时/分钟/秒为单位的纪元时间。
expr $(date +%s) / 3600 / 24
16714
答案1
无法判断您的情况到底出了什么问题。因此,以下是一些想法:
我们正在使用 nsca 进行被动检查。为什么之后会有这么多 nrpe 进程?我知道执行主动检查时会 fork 一个新的进程。但是检查完成后它应该会消失,对吧
看来 nsca 无法正常工作,然后执行了主动检查。确保 nsca 正常工作。
尽管 freshness_threshold 为 10 分钟,但被动检查仍可能过期
或者 nsca 没有配置为将被动结果发送给 shinken
我知道执行主动检查时会分叉出一个新进程。但是检查完成后它应该会消失,对吧
也许检查还没有完成,并且连接由另一方保留 (shinken)