我们目前利用多个 Nagios 工作程序来使用 DNZ 分配工作负载,如下所述:https://assets.nagios.com/downloads/general/docs/Distributed_Monitoring_Solutions.pdf。我在官方文档中找不到任何相关信息,大多数搜索只是将我链接回他们的网站。忽略所需的计算能力(CPU、RAM 等),单个 Nagios 实例可以监控的主机或服务数量是否有任何硬性限制?单个工作者呢?
答案1
我不确定您问的是配置限制还是运行时间限制。或者两者兼而有之。
如果您询问解析器处理的对象(主机/服务/命令/联系人/等等)数量是否有限制,答案似乎是“否”(查看解析器的源代码)。除非您在解析时内存不足。
当你进入数万个对象(甚至更多)的领域时,解析配置所需的时间可能会急剧增加。不过,v3 的问题比 v4 的问题更严重。请参阅文档页面快速启动选项了解更多信息。
如果您询问的是运行时限制,同样没有预先配置或硬编码的上限。唯一真正重要的是每秒的检查数,以及您的硬件是否可以处理它。在这方面,具有 5 分钟 check_interval 的 10k 主机(或服务)与具有 1 分钟间隔的 2k 主机/服务相同。
观察(并分析趋势)平均检查延迟和执行时间nagiostats
是评估 Nagios 容量问题的好方法。
有一些简单的调整可以带来很大的不同,比如将检查结果保存到 ramdisk,并使用check_icmp
而不是check_ping
。调整 Nagios 以获得最佳性能页面。(但该页面还建议使用 UltraSCSI 磁盘而不是 IDE,以便让您了解它的当前情况……)
您之所以很难找到有关 Nagios 尺寸的确切信息,是因为没有两个安装是相同的,并且有太多变量能够说“每个核心每秒可以进行 X 次检查”或类似的话。