我正在尝试在 Munin 中发出简单警报,检查 SW RAID 1 状态,其中 2 个磁盘的指标为健康,1 个磁盘为警告,0 个磁盘为关键。
我见过的所有 Munin 监视器都是在值过高时触发的,例如磁盘空间超过 90%,但就我而言,我想要相反的情况。我似乎在 Munin 文档中找不到任何支持这一点的内容。
我知道我可以反转逻辑,以便它监视不健康磁盘的数量,即 0 个健康、1 个警告和 2 个严重,但反过来似乎更整洁。
答案1
从http://guide.munin-monitoring.org/en/latest/reference/plugin.html#plugin-attributes-data在警告/关键部分它说:
Attribute: {fieldname}.critical
Value: integer or decimal numbers (both may be signed)
Type: optional
Description: Can be a max value or a range separated by colon. E.g. “min:”, “:max”, “min:max”, “max”. Used by munin-limits to submit an error code indicating critical state if the value fetched is outside the given range.
See also: Let Munin croak alarm
Default:
有趣的是,尽管http://guide.munin-monitoring.org/en/latest/reference/munin.conf.html#munin-conf它说:
munin-limits 将服务标记为处于关键状态的值。值可以是单个数字,用于指定必须通过的限制,也可以是逗号分隔的一对数字,定义有效的值范围。
因此,不确定是其中之一还是其中之一 - 我在其他地方也看到过对 : 值的引用。祝你好运!
答案2
这回答Bryan 的链接指向正确的文档。因为我需要为我们的另一个插件解决这个问题。这种插件的输出应该是:
sudo munin-run my_plugin
raid_disks_healthy.value 3
sudo munin-run my_plugin config
...
raid_disks_healthy.warning 2:
raid_disks_healthy.critical 1:
这意味着少于 2 个健康磁盘是警告,少于 1 个健康磁盘是关键