监控系统的最佳实践是什么?CPU 警报应该基于常规 CPU 使用率还是平均负载?我想知道在大型云环境中使用什么方法。
答案1
CPU 利用率达到 100% 并不会触发警报,但 CPU 利用率保持在 100% 才值得担心。
尖锐的尖刺通常是好的
负载波动,但您的系统不会达到可用资源的限制,也不会经历持续的资源匮乏。
当 CPU 负载峰值有时达到 100% 时,您的系统大小是正确的,当它们从未达到 100% 时,您的系统可能(有点)过大。
完全不用担心。
直线通常不好
当您的 CPU 负载长时间保持在 100% CPU 利用率时,您的系统就没有所需的所有资源。
您可能需要扩大规模或进一步扩大规模。干预和发送寻呼警报可能是适当的。
另一方面,当您的 CPU 负载始终保持在 0% CPU 利用率时,您的系统可能非常庞大,您可能需要缩小规模,或者出现其他问题(并且您的监控遗漏了)。您可能不希望在下班后收到寻呼机警报,但如果这是一个长期趋势,则仍应在工作时间内跟进。