对于 COUNTER 和 DERIVE 类型的 Munin 插件,我应该使用什么${name}.warning
值${name}.critical
?
答案1
这取决于您测量的数据(而不是数据类型)。
COUNTER 是绝对值,因此您只需指定应存在的最小值和最大值。一个常见的例子是当前登录系统的用户数。通常情况下,没有人登录是可以的,因此没有最低阈值。在服务器上,通常不会有太多同时活动的登录,因此如果有五个活动登录,您可以发出警告,如果有十个或更多,您可以发出严重警报。看起来就像这样:
users.warning :5
users.critical :10
DERIVE 字段是变化率值,因此您只需考虑要查看的最小和最大变化率。假设您正在监控以瓦为单位的电力(它是一个 DERIVE 字段,因为系统报告自开机以来消耗的总焦耳数,而您从中得出瓦数)。如果系统通常消耗 80 瓦,您可以将阈值设置为 75 和 100 瓦以发出警告,将阈值设置为 70 和 130 瓦以表示临界状态。(如果功耗太低,则系统组件之一可能已损坏,因为大多数计算机的正常工作电流都有下限。另一方面,“太高”的瓦数将取决于更多外部因素,例如您的电力基础设施的容量。)看起来会像这样:
power.warning: 75:100
power.critical: 70:130
我希望我已经通过我的例子说明了限制设置在很大程度上取决于您究竟在测量什么,并且没有通用的方式来表达诸如“DERIVE数据源应该具有X:Y的警告阈值”之类的话。
答案2
据我所知,munin 中的 DERIVE 有一个错误。您可以将 graph_period 调整为分钟/小时/天,但 crit/warning 限制始终为每秒。