监控服务器上的可用内存和 CPU 使用率是否有意义?

监控服务器上的可用内存和 CPU 使用率是否有意义?

我正在使用带有一些主/卫星配置的 Icinga2 监控我的服务器基础设施。

在 Linux 和 Windows 主机上,我监控默认系统指标,如 CPU 使用率和可用系统内存。在工作节点上,这些值通常可以达到 100%(或 5% 可用 RAM),因此我收到许多实际上并不令人担忧的严重警报。

那么,更好的做法是:

  • 只需避免监视可用内存和 CPU 使用率
  • 将可用内存设置为 0%,将 CPU 使用率设置为 100%,设置严重警报
  • 继续监视它们,但没有收到任何警报
  • 直接丢弃警报
  • 还有什么?

答案1

您需要调整监控阈值以使其适合您的特定环境。

例如,在计算节点上,我们希望 CPU 利用率为 100%,因此这不是可用的警报阈值。但是,如果平均负载始终大于核心数或 I/O 等待时间过长,则可能表示存在问题,因此在这种情况下请观察这些值并相应地设置警报。

除此之外:如果你不使用一个值作为警告阈值,你就不会需要来监控它,但如果您需要,您还是可以这样做以保存使用情况统计信息。再次强调:取决于您的环境。

哦,千万不要丢弃警报。这会导致警报疲劳,有时你可能会忽略一个重要的警报,因为它淹没在所有的噪音中。如果你不想对警报采取行动,那就把它删除吧。

相关内容