Nagios 基本配置（用于快速添加新机器）

Question 1

不久前，我编写了一个非常棒的 NRPE 自动安装程序脚本，我相信如果您根据自己的需求对其进行编辑，它将对您有所帮助。该脚本包含许多内置检查，这些检查将添加到每个主机的nrpe.cfg文件中。这意味着，您可以配置与您相关的检查，并确保运行该脚本的每个主机也都有这些检查，这是关于客户端的。

脚本链接：这里。

关于服务器端（Nagios），您可以安装 Nagios 配置管理器（例如 NagioSQL），它将帮助您通过 GUI 以更方便的方式管理主机和服务。

不仅如此，为了确保所有主机都具有您显示的这些检查，只需创建一个包含您要监控的所有服务（检查）的服务组，然后将该服务组附加到您监控的每个主机。

让我告诉你我在公司做了什么，我想确保每台服务器都受到检查监控check_load，但由于我们公司没有硬件基准，这意味着每台服务器都有不同的规格，并且是check_load按机器中每个核心/CPU 计算的，我已经在我们的 Puppet 服务器中的“Nagios_client”模块中添加了一个，custom_fact它可以识别一台机器中有多少个处理器，并相应地配置 Nagios check_load。

例如，假设 server1 有 4 个 cpu，这意味着 2.8 负载是理想的（每个 cpu 0.7）。Puppet 通过facter识别 cpu 的数量，然后编辑服务器，nrpe.cfg如下所示：

command[check_load]=/usr/local/nagios/libexec/check_load -w 2.9,3.0,3.1 -c 4.0,5.0,6.0

然后，例如在 NagioSQL 中，您可以使用“导入功能”，该功能允许您导入*.cfg将作为主机和服务加载到 Nagios 的文件。因此，您可以创建一个host.cfg文件，并通过脚本将其复制到您想要监控的每个主机，只需更改每台机器的主机名/ip，它就会带您进入更自动化的配置。

例如，在我的例子中，Puppet 能够理解它是在机器上第一次运行，然后还在host.cfgNagios 中创建了相关文件。

我相信有了 Puppet + NagioSQL，您的 Nagios 管理将会变得更加容易。

关于您在配置任何检查时遇到的困难...您可以随时编写自己的脚本并配置 Nagios 为您运行它。例如，让我们以您的check_disk命令为例，这是一个非常丰富的命令，它允许您显示对您来说不必要的所有类型的数据。

所以我遇到了同样的问题check_procs，另一个非常丰富的命令，它会给你各种各样的数据……我并不需要这些数据，所以我编写了一个简单的检查脚本，它完全满足我的需要，并在 Nagios 中对其进行了配置。例如：

#!/bin/bash
# This script checks for running processes for mt.js and adb-server.js
# Script by Itai Ganot 2015 .
process="$1"
appname=$(basename $0)
if [ -z "$1" ]; then
    echo "Please specify a process to check"
    exit 1
fi
ps -ef | grep "$process" | egrep -v "grep|$appname" &>/dev/null
if [ "$?" -eq "0" ] ; then
    stat="OK"
    exitcode="0"
    msg="Process $process is running"
else
    stat="Critical"
    exitcode="2"
    msg="There are currently no running processes of $process"
fi
pid=$(ps -ef | grep "$process" | egrep -v "grep|$appname" | awk '{print $2}')
echo "$stat: $msg Process PID: $pid"
exit $exitcode

它提供的信息比真实的要少check_procs，但却提供了我需要的信息。

简而言之，如果您的check_disk命令让您难以配置，那么只需创建自己的脚本，这就是 Nagios 的魅力所在。

我希望我能帮到你。

Answer