我正在使用带有一些主/卫星配置的 Icinga2 监控我的服务器基础设施。
在 Linux 和 Windows 主机上,我监控默认系统指标,如 CPU 使用率和可用系统内存。在工作节点上,这些值通常可以达到 100%(或 5% 可用 RAM),因此我收到许多实际上并不令人担忧的严重警报。
那么,更好的做法是:
- 只需避免监视可用内存和 CPU 使用率
- 将可用内存设置为 0%,将 CPU 使用率设置为 100%,设置严重警报
- 继续监视它们,但没有收到任何警报
- 直接丢弃警报
- 还有什么?
答案1
您需要调整监控阈值以使其适合您的特定环境。
例如,在计算节点上,我们希望 CPU 利用率为 100%,因此这不是可用的警报阈值。但是,如果平均负载始终大于核心数或 I/O 等待时间过长,则可能表示存在问题,因此在这种情况下请观察这些值并相应地设置警报。
除此之外:如果你不使用一个值作为警告阈值,你就不会需要来监控它,但如果您需要,您还是可以这样做以保存使用情况统计信息。再次强调:取决于您的环境。
哦,千万不要丢弃警报。这会导致警报疲劳,有时你可能会忽略一个重要的警报,因为它淹没在所有的噪音中。如果你不想对警报采取行动,那就把它删除吧。