通过 Nagios 监控任何硬件的 CPU、主板、硬盘、风扇温度等

通过 Nagios 监控任何硬件的 CPU、主板、硬盘、风扇温度等

我正在使用 NagiosXI,我想监控其他主机的 HDD、CPU 温度、风扇速度等

谁能告诉我通过 NagiosXI 进行监控的方法是什么?

我正在使用 SNMP 方法。但是没有成功。

我已经使用名为 check_ipmi_sensor 的插件进行了检查,但没有成功。

答案1

对此的详细回答超出了 SF 答案的范围,但我认为给你一些建议是合理的。解决方案分为两部分:

  1. 在远程机器上运行什么插件,以及
  2. 如何在远程机器上运行它。

2)很容易:国家可再生能源计划,或者可能通过 ssh () 进行远程执行check_by_ssh,或者可能是 SNMP(尽管我不喜欢这样)。

1) 是比较难的部分,除非你解决了 (1),否则不值得去做 (2)。这需要找到一种方法来监控远程机器上的这些参数,而传感器是出了名的棘手、依赖于 BIOS、不了解标准、文档匮乏的工作领域。

因此,首先找到一个在每台机器上运行的简单命令,该命令可以访问您想要测量的硬件参数;这可能需要在每个不同的硬件平台上使用不同的工具。然后将其包装在 NAGIOS 插件逻辑中。然后通过 NRPE 调用它。

编辑:有许多 NRPE HOWTO;这个在我看来,这看起来很不错。但我要重复我的警告,除非您有查询硬件的命令,并且这些命令已准备好运行,并且已封装在 NAGIOS 友好的包装器中,否则安装 NRPE 位没有任何实际意义。

答案2

如果您要使用 IPMI 路线:最后,大多数插件将调用“ipmitool sdr”并解析输出。确保用户 nrpe 以适当的权限运行插件。确保已加载 ipmi_si 和 ipmi_devintf 模块。不要忘记并非所有硬件都支持 IPMI。

如果使用任何旧的、特定于硬件的、 lm_sensors 风格的驱动程序,请彻底检查系统稳定性是否受到影响,其中一些可能会以令人惊讶的方式干扰低级事物......

答案3

您可以从某些服务器销售商提供的实用程序中提取大量信息。我曾经使用 Dell OpenManage 实用程序监控服务器机房温度,该实用程序具有 CPU 所见的环境温度。

值得花时间和精力去采用 NCSA 路线或其他被动测试。被动路线意味着,如果您的系统积累了超过主动收集服务器所能提供的范围……那么被动测试可以被收集并发送到主服务器。此外,如果您的 Nagios 服务器受到威胁……入侵者可以在“连接到”Nagios 服务器的任何服务器上运行程序。使用被动路线(以及对 NCSA 流量的加密),您可以将测试结果“发送”到 Nagios 服务器……如果 Nagios 服务器受到威胁……那么入侵者仍然无法访问 Nagios 框。此外,使用被动(NCSA),您可以在交换机中放入 ACL,只允许流量从测试服务器发送到 Nagios 服务器,同时阻止从 Nagios 服务器到测试框的流量(希望这有意义)。

相关内容