系统监控冗余

系统监控冗余

我在一个小型企业环境中提供咨询,其中有两台 HyperV 主机(带有 <10 个 VM)+ 几台其他服务器。

我最近遇到一个问题,其中一个 HyperV 主机出现 CPU 问题,导致它崩溃,我的大多数非关键虚拟机以及我用于网络和系统监控和可用性的免费软件也随之崩溃。由于这个原因,以及 iDRAC 也锁定的事实,我没有收到有关崩溃的任何警报。

所以我想知道如何(廉价地)建立一个冗余可用性监控系统——是否像在两个不同的 HyperV 主机上运行 Nagios 或 Zenoss(或其他)一样简单?

运行多个 Nagios/Zenoss/etc 副本似乎会很昂贵,而且开销很高。

有什么想法吗?

答案1

所以我想知道如何(廉价地)建立一个冗余可用性监控系统——是否像在两个不同的 HyperV 主机上运行 Nagios 或 Zenoss(或其他)一样简单?

是的。

冗余意味着拥有多个关键组件。监控是一个关键组件,因此您需要多个监控主机。要解决您在问题中提到的直接问题,您只需在单独的主机上设置第二个金丝雀即可。
(请注意,如果监控的连续性对您来说并不重要,则不必完全复制您的监控环境:它可能只是一个 nagios 检查或类似操作,以确保主主机正常运行)。


更复杂的解决方案包括监控故障转移,你可能还需要考虑使用外部监控器(有很多服务,如平多姆您可能还想使用提供此功能的服务来监控您更关键的面向客户的系统,但乍一看,这两种服务对于您想要的功能来说都是小菜一碟——您只需要在监控系统崩溃时得到通知即可。

答案2

如何监控监控服务器?

简而言之,获取外部监控系统来监控您的本地监控 -如果你能把它暴露在网络上。这可以简单到在您的内部监控服务器上托管一个网站,由优秀的第三方服务进行监控。

答案3

香料是一个免费的监控工具,可以帮助您轻松监控非关键虚拟机。

答案4

为什么不设置像 Pingdom 这样的东西来监控监控主机?

相关内容