假设我试图用 Nagios 监控一个盒子,但有一个失控的进程窃取了计算机近 100% 的 CPU 和 RAM。在这种情况下,Nagios 如何继续向我发出有关盒子状态的警报?如何阻止失控进程阻止 Nagios 运行?
答案1
如果被监控的服务器超载,Nagios 或任何其他监控程序将无法在该服务器上工作。
但不用担心,您会收到宝贵的警报:您会了解到监控服务器的每个 Nagios 测试都会超时的情况。
但是,如果您的意思是让所有东西(包括 Nagios)都在同一台服务器上运行,那么您的 Nagios 就很容易突然死机。始终要有一个单独的监控服务器,否则监控将毫无用处:它会在您真正需要它的时候停机!
您还可以考虑安装一些信息监视器,例如平均负载。如果平均负载超过某个临界点,Nagios 会向您发出警告。
使用 MRTG、Cacti 或 Nagiosgraph 绘制服务器各个方面(例如 CPU、内存和磁盘使用情况)也很有帮助,可以让您更轻松地关注趋势。