监控服务器上的可用内存和 CPU 使用率是否有意义？

Question

您需要调整监控阈值以使其适合您的特定环境。

例如，在计算节点上，我们希望 CPU 利用率为 100%，因此这不是可用的警报阈值。但是，如果平均负载始终大于核心数或 I/O 等待时间过长，则可能表示存在问题，因此在这种情况下请观察这些值并相应地设置警报。

除此之外：如果你不使用一个值作为警告阈值，你就不会需要来监控它，但如果您需要，您还是可以这样做以保存使用情况统计信息。再次强调：取决于您的环境。

哦，千万不要丢弃警报。这会导致警报疲劳，有时你可能会忽略一个重要的警报，因为它淹没在所有的噪音中。如果你不想对警报采取行动，那就把它删除吧。

Answer 1

您需要调整监控阈值以使其适合您的特定环境。

例如，在计算节点上，我们希望 CPU 利用率为 100%，因此这不是可用的警报阈值。但是，如果平均负载始终大于核心数或 I/O 等待时间过长，则可能表示存在问题，因此在这种情况下请观察这些值并相应地设置警报。

除此之外：如果你不使用一个值作为警告阈值，你就不会需要来监控它，但如果您需要，您还是可以这样做以保存使用情况统计信息。再次强调：取决于您的环境。

哦，千万不要丢弃警报。这会导致警报疲劳，有时你可能会忽略一个重要的警报，因为它淹没在所有的噪音中。如果你不想对警报采取行动，那就把它删除吧。

相关内容