Nagios（或类似工具）的警报级别是否更加多样化？

Question 1

许多 NAGIOS 插件已经完全满足您的需求，允许将 WARNING 和 CRITICAL 阈值指定为一个范围，当值超出（或可选地在）该范围时发出警报。例如，来自/usr/lib/nagios/plugins/check_procs -h：

[...]
Usage:
check_procs -w <range> -c <range> [-m metric] [-s state] [-p ppid]
 [-u user] [-r rss] [-z vsz] [-P %cpu] [-a argument-array]
 [-C command] [-t timeout] [-v]
[...]
 -w, --warning=RANGE
   Generate warning state if metric is outside this range
 -c, --critical=RANGE
   Generate critical state if metric is outside this range
[...]
RANGEs are specified 'min:max' or 'min:' or ':max' (or 'max'). If
specified 'max:min', a warning status will be generated if the
count is inside the specified range
[...]

因此，此插件已经具有以下概念：“如果 X 大于 C 或小于 B，则存在问题；如果 X 小于 A 或大于 D，则灾难即将来临”（因为 A<B<C<D）。在我看来，这非常符合您的要求，并且无需重新设计 NAGIOS（其中大量嵌入了 OK/WARN/CRIT 概念）。

Answer

许多 NAGIOS 插件已经完全满足您的需求，允许将 WARNING 和 CRITICAL 阈值指定为一个范围，当值超出（或可选地在）该范围时发出警报。例如，来自/usr/lib/nagios/plugins/check_procs -h：

[...]
Usage:
check_procs -w <range> -c <range> [-m metric] [-s state] [-p ppid]
 [-u user] [-r rss] [-z vsz] [-P %cpu] [-a argument-array]
 [-C command] [-t timeout] [-v]
[...]
 -w, --warning=RANGE
   Generate warning state if metric is outside this range
 -c, --critical=RANGE
   Generate critical state if metric is outside this range
[...]
RANGEs are specified 'min:max' or 'min:' or ':max' (or 'max'). If
specified 'max:min', a warning status will be generated if the
count is inside the specified range
[...]

因此，此插件已经具有以下概念：“如果 X 大于 C 或小于 B，则存在问题；如果 X 小于 A 或大于 D，则灾难即将来临”（因为 A<B<C<D）。在我看来，这非常符合您的要求，并且无需重新设计 NAGIOS（其中大量嵌入了 OK/WARN/CRIT 概念）。

Question 2

我使用 nagios 进行警报，使用 ganglia 进行指标收集。很多时候，我的工具会将数据发送到 ganglia（通过 gmetric），也会将警报发送到 nagios（通过 send_nsca，又称被动警报）。如果您正确编写了工具，它可以检测到从上一期到当前期的变化。例如，这样您就可以检测到某些指标的变化。此时的平均响应时间是否比上次高/低 X%？队列大小是否增加/减少了 X%？

我使用过 munin 一段时间，但它没有 ganglia 的粒度。此外，在 ganglia 中创建新指标就像调用 gmetric 一样简单。BAM，您有了一个新图表。我还发现在我们的指标图表上显示上次部署时间很有用（只是一条显示部署时间的垂直线）。这样您就可以更好地直观地看到发生了什么以及何时发生。

Answer

我使用 nagios 进行警报，使用 ganglia 进行指标收集。很多时候，我的工具会将数据发送到 ganglia（通过 gmetric），也会将警报发送到 nagios（通过 send_nsca，又称被动警报）。如果您正确编写了工具，它可以检测到从上一期到当前期的变化。例如，这样您就可以检测到某些指标的变化。此时的平均响应时间是否比上次高/低 X%？队列大小是否增加/减少了 X%？

我使用过 munin 一段时间，但它没有 ganglia 的粒度。此外，在 ganglia 中创建新指标就像调用 gmetric 一样简单。BAM，您有了一个新图表。我还发现在我们的指标图表上显示上次部署时间很有用（只是一条显示部署时间的垂直线）。这样您就可以更好地直观地看到发生了什么以及何时发生。

Nagios（或类似工具）的警报级别是否更加多样化？

答案1

答案2

相关内容