来自 Nagios 服务器的消息

来自 Nagios 服务器的消息

Nagios 服务器正在监控托管 Windows Sharepoint 的我的服务器。

我在收件箱中收到来自 Nagios 服务器的以下 2 条警报

1. 服务:C:\ Drive Space

状态:严重

附加信息:

严重 - 10 秒后套接字超时

2. 服务:CPU 负载

状态:严重

附加信息:

严重 - 10 秒后套接字超时

我从这些推断出什么?

答案1

检查无法联系用于监视服务器的网络服务。我预计它可能是 WMI 或 NSClient。您没有说主机已关闭,因此我假设 nagios 可以正常 ping 主机。如果服务未运行,您会收到拒绝连接的消息,但您会收到套接字超时,这意味着它在一定时间内无法建立连接。鉴于您可以 ping 计算机但无法访问套接字,我认为可能是防火墙挡住了路。

答案2

需要更多信息,例如:

  • 如果您总是收到这些消息,或者偶尔收到这些消息。
  • Nagios 和主机之间的网络是什么样的。
  • 它之前就起作用了吗,还是刚刚开始起作用?

话虽如此,如果您间歇性地收到这些信息,除了其他人所说的情况之外,还可能意味着 Nagios 服务器、正在检查的服务器或网络负载非常高并且无法及时响应。

它甚至可能是类似 IP 冲突的情况。

您还可以尝试增加 nagios.cfg 中的全局超时和/或特定插件的超时(通常是 -t 开关)。

答案3

第一步是确保检查命令可以在本地运行,然后尝试从远程手动运行它们(所有这些都在文档中介绍)。根据结果,您可能需要确保 Windows 防火墙已打开适当的端口,并且允许 Nagios 计算机连接到 Windows 主机。值得一提的是,这两项检查通常非常快,因此它们不可能超时。

答案4

如果此服务之前正常运行,则可能是网络间歇性故障。

在工作中,它帮助我们发现异地数据中心的一些不稳定的访问问题。

相关内容