Nagios 服务器负载过高 —— Nagios 服务器的服务检查次数有多少才算太多?

Nagios 服务器负载过高 —— Nagios 服务器的服务检查次数有多少才算太多?

我有一台运行 Ubuntu 的 nagios 服务器,配有 2.0 GHz Intel 处理器、RAID10 阵列和 400 MB RAM。它监控 8 台主机上的总共 42 个服务,其中大部分服务使用 check_http 插件检查一次,甚至每 5 分钟一次,有些是每分钟一次。最近,nagios 服务器上的负载超过 4,通常高达 6。该服务器还运行 cacti,每分钟收集 6 台主机的统计信息。

我想知道,这样的硬件应该能够处理多少服务?负载这么高是因为我超出了硬件的极限,还是这个硬件应该能够处理 42 个服务检查加上 cacti?如果硬件不够用,我是否应该考虑添加更多 RAM、更多内核或更快的内核?其他人正在运行哪些硬件/服务检查?

答案1

您需要弄清楚您的瓶颈在哪里......

我运行一个 nagios 监视器,它使用 http、ping 和 ssh 检查 400 多个主机。(以及许多其他被动检查和 nscd)

这是在具有 RAID10 中的 4 个 SAS 磁盘的 2xQuadCore 服务器上。

我怀疑您有 IO 争用,因为写入大量 rrd 效率很低。

您需要弄清楚哪个进程正在占用您的资源。(cacti、nagios 或其他)

对于 IO 检查,我喜欢 iotop。安装 iotop(9.04 包适用于 8.04)

但除此之外,top 也应该能帮助你找到你的负载大户。

每分钟运行一次 Cacti 非常激进。(我以 5 分钟为间隔运行一次)

我听说过的一种解决 rrd 写争用的方法是将 rrd 存储放在 ramdisk/tmpfs 上。(确保不时将其 rsync 到持久存储)

祝你好运。

答案2

除非是 Cacti 产生了大部分负载,否则您应该能够在硬件上运行比这更多的检查。

我在一台运行 Microsoft Virtual Server 的 FreeBSD 虚拟机上运行 nagios,这台虚拟机运行在一台运行速度极慢的旧 PC 上(Pentium 3 1GHz,PATA 磁盘速度很慢)。这台虚拟机只有 128MB RAM,性能极差。

然而平均负载约为 0.2,在 42 台主机上运行 158 次检查。

答案3

在一台具有 256MB RAM 的旧 PIII 上,我正在积极监控大约 230 种不同的服务。同一台机器还为我们所有的传入传真运行 MRTG 和 HylaFAX,并且运行得相当顺畅。

答案4

您应该能够使用该硬件运行大量的 nagios 检查。我们运行了类似的设置,大约有 70 个检查和 Nagiosgraph - 主要区别是增加了 RAM(它很便宜,所以我会将盒子增加到 2Gb)。

尝试运行 top 或 ps -aux 来查看 CPU 是否过载,但我对此表示怀疑。您可能还想检查 nagios并行化文档查看您的安装是否试图同时运行太多检查而不是对它们进行序列化。

相关内容