Munin:一切正常时通知

Munin:一切正常时通知

我使用一个 Munin-Master 监控 20 多台服务器,除一台服务器外,其他服务器运行正常。最后收到三封 Munin 邮件:

05时25分

infra :: backup2.infra :: 磁盘使用情况百分比 OK:/var 为 22.55,/run/user/1001 为 0.00,/home 为 8.87,/mnt/usb1 为 30.55,/export/oxa 为 51.58,/tmp 为 0.60,/dev/shm 为 0.00,/space2 为 40.39,/run 为 8.77,/run/lock 为 0.00,/run/user/65534 为 0.00,/space 为 76.38,/sys/fs/cgroup 为 0.00,/ 为 18.46。

infra :: backup2.infra :: Inode 使用率(百分比)OK:/dev/shm 为 0.00,/run 为 0.05,/space2 为 7.44,/run/user/65534 为 0.00,/run/lock 为 0.00,/sys/fs/cgroup 为 0.00,/space 为 0.24,/ 为 8.07,/dev 为 0.03,/home 为 0.13,/mnt/usb1 为 0.51,/export/oxa 为 0.01,/tmp 为 0.02,/var 为 2.02,/run/user/1001 为 0.00。

07时00分

infra :: backup2.infra :: Inode 使用率(百分比)OK:/home 为 0.13,/var 为 2.02,/run/user/1001 为 0.00,/dev/shm 为 0.00,/run 为 0.05,/run/lock 为 0.00,/space 为 0.24,/run/user/1003 为 0.00,/tmp 为 0.02,/ 为 8.07,/space2 为 7.44,/mnt/usb1 为 0.51,/export/oxa 为 0.01,/dev 为 0.03,/sys/fs/cgroup 为 0.00。

08时50分

infra :: backup2.infra :: Inode 使用率(百分比)OK:/run/user/1001 为 0.00,/tmp 为 0.02,/dev 为 0.03,/run/user/0 为 0.00,/dev/shm 为 0.00,/run 为 0.05,/space 为 0.24,/sys/fs/cgroup 为 0.00,/mnt/usb1 为 0.51,/ 为 8.07,/home 为 0.13,/space2 为 7.44,/run/lock 为 0.00,/var 为 2.02,/export/oxa 为 0.01。

infra :: backup2.infra :: 磁盘使用情况百分比 OK:/ 为 18.46,/mnt/usb1 为 30.62,/sys/fs/cgroup 为 0.00,/export/oxa 为 51.62,/run/lock 为 0.00,/var 为 22.29,/space2 为 40.39,/home 为 8.87,/tmp 为 0.60,/run/user/1001 为 0.00,/space 为 76.49,/dev/shm 为 0.00,/run 为 9.27,/run/user/0 为 0.00。

一切正常,主日志中没有错误,但我仍然收到很多这样的消息。

以下是关于此节点的主日志

munin-update.log:2016/03/25 10:40:24 [警告] backup2.infra/backup2.admin2:4949 上的服务 nfs4_client 未返回标签 fsinfo 的数据 munin-update.log:2016/03/25 10:40:21 [警告] backup2.infra/backup2.admin2:4949 上的服务 nfs_client 未返回标签删除的数据

munin-update.log:2016/03/25 09:55:06 [INFO] 开始在 29082 中为 backup2.infra/backup2.admin2:4949 工作。 munin-update.log:2016/03/25 09:55:06 [INFO] 节点 backup2.infra 将自身宣传为 backup2。 munin-update.log:2016/03/25 09:55:12 [INFO]:Munin-update 已完成节点 infra;backup2.infra(6.67 秒) munin-update.log:2016/03/25 09:55:13 [INFO] 正在收获 Munin::Master::UpdateWorker。 退出值/信号:0/0

通知配置

 contact.devs.command mail -s "Munin notification ${var:host}" [email protected] 
 contact.devs.always_send warning critical

这是此节点的配置文件(针对所有节点生成)

[backup2.infra]
     address backup2.admin2
     use_node_name yes
     diskstats_latency.backup2_store_export.avgrdwait.warning :7
     diskstats_latency.backup2_store_export.avgwrwait.warning :7
     diskstats_latency.backup2_store_export.avgrdwait.critical :10
     diskstats_latency.backup2_store_export.avgwrwait.critical :10

Munin Master 和节点版本:2.0.25-1(均为 Debian Jessie)

我可以在哪里观看以了解并解决问题?

答案1

Debian 中的插件df还会检查动态挂载的文件系统,/run/user/<uid>当用户登录时,这些文件系统会出现,当用户注销时,这些文件系统就会消失。即使所有级别都正常,这种出现和消失也会被视为触发电子邮件的更改。

您可以通过创建一个名为/etc/munin/plugin-conf.d/df以下内​​容的文件来避免这种情况:

[df*]
env.exclude_re /run/user/

要检查您的设置是否有效并列出df插件考虑的路径,请使用以下命令:

munin-run -d df

如果您对结果满意,请重新启动 munin-node 服务(service munin-node restart)。

答案2

Debian 和派生发行版中的最新 Munin 应该按照以下方式处理这个问题Debian 错误 #788736

围绕 tmpfs 类型挂载的一些逻辑(/run/user/* 就是)已修复在 Munin 上游项目中。据我所知,它们并没有被排除在外。默认情况下(可能是 Debian 特定的配置这样做了)。

答案3

对我来说,docker 卷是导致此错误的另一个原因。

我最终使用这个配置来修复@Oliver 的 /run/user 问题以及我的 docker 问题;

[df*]
env.exclude_re ^(/run/user/|/var/lib/docker)

相关内容