我使用一个 Munin-Master 监控 20 多台服务器,除一台服务器外,其他服务器运行正常。最后收到三封 Munin 邮件:
05时25分
infra :: backup2.infra :: 磁盘使用情况百分比 OK:/var 为 22.55,/run/user/1001 为 0.00,/home 为 8.87,/mnt/usb1 为 30.55,/export/oxa 为 51.58,/tmp 为 0.60,/dev/shm 为 0.00,/space2 为 40.39,/run 为 8.77,/run/lock 为 0.00,/run/user/65534 为 0.00,/space 为 76.38,/sys/fs/cgroup 为 0.00,/ 为 18.46。
infra :: backup2.infra :: Inode 使用率(百分比)OK:/dev/shm 为 0.00,/run 为 0.05,/space2 为 7.44,/run/user/65534 为 0.00,/run/lock 为 0.00,/sys/fs/cgroup 为 0.00,/space 为 0.24,/ 为 8.07,/dev 为 0.03,/home 为 0.13,/mnt/usb1 为 0.51,/export/oxa 为 0.01,/tmp 为 0.02,/var 为 2.02,/run/user/1001 为 0.00。
07时00分
infra :: backup2.infra :: Inode 使用率(百分比)OK:/home 为 0.13,/var 为 2.02,/run/user/1001 为 0.00,/dev/shm 为 0.00,/run 为 0.05,/run/lock 为 0.00,/space 为 0.24,/run/user/1003 为 0.00,/tmp 为 0.02,/ 为 8.07,/space2 为 7.44,/mnt/usb1 为 0.51,/export/oxa 为 0.01,/dev 为 0.03,/sys/fs/cgroup 为 0.00。
08时50分
infra :: backup2.infra :: Inode 使用率(百分比)OK:/run/user/1001 为 0.00,/tmp 为 0.02,/dev 为 0.03,/run/user/0 为 0.00,/dev/shm 为 0.00,/run 为 0.05,/space 为 0.24,/sys/fs/cgroup 为 0.00,/mnt/usb1 为 0.51,/ 为 8.07,/home 为 0.13,/space2 为 7.44,/run/lock 为 0.00,/var 为 2.02,/export/oxa 为 0.01。
infra :: backup2.infra :: 磁盘使用情况百分比 OK:/ 为 18.46,/mnt/usb1 为 30.62,/sys/fs/cgroup 为 0.00,/export/oxa 为 51.62,/run/lock 为 0.00,/var 为 22.29,/space2 为 40.39,/home 为 8.87,/tmp 为 0.60,/run/user/1001 为 0.00,/space 为 76.49,/dev/shm 为 0.00,/run 为 9.27,/run/user/0 为 0.00。
一切正常,主日志中没有错误,但我仍然收到很多这样的消息。
以下是关于此节点的主日志
munin-update.log:2016/03/25 10:40:24 [警告] backup2.infra/backup2.admin2:4949 上的服务 nfs4_client 未返回标签 fsinfo 的数据 munin-update.log:2016/03/25 10:40:21 [警告] backup2.infra/backup2.admin2:4949 上的服务 nfs_client 未返回标签删除的数据
munin-update.log:2016/03/25 09:55:06 [INFO] 开始在 29082 中为 backup2.infra/backup2.admin2:4949 工作。 munin-update.log:2016/03/25 09:55:06 [INFO] 节点 backup2.infra 将自身宣传为 backup2。 munin-update.log:2016/03/25 09:55:12 [INFO]:Munin-update 已完成节点 infra;backup2.infra(6.67 秒) munin-update.log:2016/03/25 09:55:13 [INFO] 正在收获 Munin::Master::UpdateWorker。 退出值/信号:0/0
通知配置
contact.devs.command mail -s "Munin notification ${var:host}" [email protected]
contact.devs.always_send warning critical
这是此节点的配置文件(针对所有节点生成)
[backup2.infra]
address backup2.admin2
use_node_name yes
diskstats_latency.backup2_store_export.avgrdwait.warning :7
diskstats_latency.backup2_store_export.avgwrwait.warning :7
diskstats_latency.backup2_store_export.avgrdwait.critical :10
diskstats_latency.backup2_store_export.avgwrwait.critical :10
Munin Master 和节点版本:2.0.25-1(均为 Debian Jessie)
我可以在哪里观看以了解并解决问题?
答案1
Debian 中的插件df
还会检查动态挂载的文件系统,/run/user/<uid>
当用户登录时,这些文件系统会出现,当用户注销时,这些文件系统就会消失。即使所有级别都正常,这种出现和消失也会被视为触发电子邮件的更改。
您可以通过创建一个名为/etc/munin/plugin-conf.d/df
以下内容的文件来避免这种情况:
[df*]
env.exclude_re /run/user/
要检查您的设置是否有效并列出df
插件考虑的路径,请使用以下命令:
munin-run -d df
如果您对结果满意,请重新启动 munin-node 服务(service munin-node restart
)。
答案2
Debian 和派生发行版中的最新 Munin 应该按照以下方式处理这个问题Debian 错误 #788736。
围绕 tmpfs 类型挂载的一些逻辑(/run/user/* 就是)已修复在 Munin 上游项目中。据我所知,它们并没有被排除在外。默认情况下(可能是 Debian 特定的配置这样做了)。
答案3
对我来说,docker 卷是导致此错误的另一个原因。
我最终使用这个配置来修复@Oliver 的 /run/user 问题以及我的 docker 问题;
[df*]
env.exclude_re ^(/run/user/|/var/lib/docker)