当我添加一些额外的设备(已经超过 12000 个)时,没有对 nagios3 配置或操作系统(debian)文件系统进行任何更改,突然
[1508925621] Warning: Return code of 127 for check of service 'PING' on host 'SOME-HOST.CISCO' was out of bounds. Make sure the plugin you're trying to run actually exists.
[1508925621] SERVICE ALERT: SOME-HOST.CISCO;PING;CRITICAL;HARD;3;(Return code of 127 is out of bounds - plugin may be missing)
所有二进制文件都是可读/可执行的,自设置以来都未发生任何改变。
所有此类主机都会发生这种情况,请记住,这是一个多年来一直运行的设置,我能想到的唯一事情就是在运行检查时达到了某种操作系统限制,因为这是唯一改变的事情,更多的主机。我已经有max_concurrent_checks=1500
很长时间了。(它是一台 16 核 24GB RAM 物理服务器)
除了我运行的并发检查之外
check_result_reaper_frequency=25
max_check_result_reaper_time=20
大型主机组配置如下:
define host{
use generic-cisco
host_name SOME_HOST.CISCO
alias SOME_HOST.CISCO
address xxx.xxx.xxx.xxx
check_command check-host-alive
hostgroups cisco_devices
}
define service{
use generic-service
host_name SOME_HOST.CISCO
service_description PING
check_command check_ping!200.0,20%!600.0,60%
normal_check_interval 10
retry_check_interval 5
}
让它恢复工作状态的唯一方法是删除我添加的一些较新的主机,然后停止并启动,希望它能正常运行。有什么建议吗?
答案1
修复这个问题的原因是,尽管我遵循了许多其他性能建议,但我没有禁用它,enable_environment_macros
现在性能没有受到影响。显然,问题是操作系统在使这些环境变量在那么多主机上可用时遇到了困难。通过以下方式找到这里
我喜欢好的 nagios facepalm。