我们有一台专用机器,主要用作网络服务器。它为多个域、我们的网络服务器和 munin 中心节点运行 Plesk,该节点连接到大约 10 台运行 munin-node 的其他机器。
今天我们的服务器没有响应。任何网站或邮件服务器的调用都会超时。SSH 也会超时,用户抱怨他们无法再玩了。
我通过提供商仪表板进行了硬重置,一段时间后一切都恢复正常。所以我检查了系统日志:我们的监控服务在 11:36 报告了第一次超时。在此之前系统日志中的最后条目是这两个:
Jul 7 11:30:19 xxx CRON[7666]: (munin) CMD (if [ -x /usr/bin/munin-cron ]; then /usr/bin/munin-cron; fi)
Jul 7 11:30:30 xxx CRON[7671]: (root) CMD (if [ -x /etc/munin/plugins/apt_all ]; then /etc/munin/plugins/apt_all update 7200 12 >/dev/null; elif [ -x /etc/munin/plugins/apt ]; then /etc/munin/plugins/apt update 7200 12 >/dev/null; fi)
Munin 是否在某种程度上导致服务器无响应?如果是这样,我们该如何解决这个问题?
答案1
没有迹象表明 Munin 存在错误。您看到的只是服务器设法写入的最后日志条目。
服务器崩溃或锁定的原因有很多。在硬重置之前,最好先查看一下控制台。你必须仔细观察并密切关注情况。我首先要检查的是内存不足问题,这可能导致软件不响应或被杀死。或者负载非常高……或者……很多事情。
如果您有一些好的软件来监控此服务器的资源/可用性等... 下次发生这种情况时,您将有更多线索。我真的推荐这个。
答案2
根据这个穆宁页面 最后一个条目对应于正在运行的插件,它负责检查受监控服务器中 apt 软件包更新的状态
我会禁用该插件几天,看看效果如何,但考虑到它是一台裸机服务器,需要进行硬盘 SMART 检查,然后进行 RAM 测试
RAM 测试需要重新启动和断电,而 SMART 磁盘检查不会造成中断