我有一台服务器同时运行来自多个服务器的备份,并收到大量“写入 IO 等待时间”警告。是否可以在单个主机上消除单个插件的警告?
我认为是的diskstats_latency.avgwrwait
。
答案1
您没有说明您如何使用 munin 报告,这使得这个问题很难回答。我假设您直接发送电子邮件,内容如下munin.conf
:
contact.dax.command mail -s "Munin notification" [email protected]
如果是这样的话,我知道的唯一消除单个警报的方法是通过提高限制来告诉 munin 这不是问题,例如
[host.example.com]
diskstats_latency.avgwrwait.warning 100000000000
diskstats_latency.avgwrwait.critical 200000000000
根本问题是,munin 在定量监控方面表现优异,但在通知处理方面却表现不佳。它缺乏控制功能,无法暂时静音特定警报、仅在一天中的特定时间通过特定渠道通知、安排停机时间段和/或在问题持续时升级到更高级别的联系人。我认识的大多数运行 munin 的人(包括我)都将其报告给 NAGIOS,NAGIOS 拥有一个非常复杂的通知引擎,可以完成上述所有操作。
如果您有此设置,您可以确认 NAGIOS 中的错误(静音通知直到下次恢复正常),或者让您的备份脚本为服务安排一个持续时间与备份长度相同的停机时间,甚至可以让脚本从禁用该服务的通知开始,并在完成时重新启用它们。